- Catégories :
TOP_INSIGHTS (SNOWFLAKE.ML)¶
Détermine les dimensions les plus importantes d’un ensemble de données, puis construit des segments à partir de ces dimensions et détecte lesquels de ces segments ont influencé la métrique.
TOP_INSIGHTS est bien adapté à l’extraction des causes profondes à partir d’ensembles de données comportant un grand nombre de dimensions. Les dimensions continues sont également prises en charge sans prétraitement en dimensions catégorielles, et les résultats peuvent indiquer des dimensions avec des conditions négatives (par exemple, « la région n’est pas l’Amérique du Nord »).
Syntaxe¶
SNOWFLAKE.ML.TOP_INSIGHTS(
<categorical_dimensions>, <continuous_dimensions>,
<metric>, <label> )
Arguments¶
categorical_dimensions
OBJECT contenant un mappage 1:1 entre les noms des dimensions et les colonnes catégorielles associées. La valeur peut provenir d’une seule colonne ou être dérivée d’une simple combinaison de colonnes.
continuous_dimensions
OBJECT contenant un mappage 1:1 entre les noms des dimensions et les colonnes continues associées. La valeur peut provenir d’une seule colonne ou être dérivée d’une simple combinaison de colonnes. Les valeurs des dimensions continues ne doivent pas être NULL.
metric
Colonne FLOAT représentant une métrique cible qui fait l’objet d’une enquête. Cette valeur doit être strictement non négative. La valeur peut provenir d’une seule colonne ou être dérivée d’une simple combinaison de colonnes.
label
Colonne BOOLEAN qui fait la distinction entre les données de contrôle et les données de test.
TRUE
représente les données de test etFALSE
représente les données de contrôle. La valeur peut provenir d’une seule colonne ou être dérivée d’une simple combinaison de colonnes (par exemple, une comparaison de dates).
Sortie¶
La fonction renvoie les colonnes suivantes :
Nom de la colonne |
Type de données |
Description |
---|---|---|
|
ARRAY de chaînes qui définissent un segment ou un aperçu de l’algorithme. Par exemple : [
"not country = canada",
"length_of_vertical <= 4.5",
"vertical = finance"
]
|
|
|
Valeur totale de la métrique au cours de la période de contrôle dans un segment spécifique. |
|
|
Valeur totale de la métrique au cours de la période de test dans un segment spécifique. |
|
|
Quantité que |
|
|
Quantification de l’évolution de la métrique dans le segment spécifique au fil des périodes par rapport à la métrique globale au cours des mêmes périodes :
|
|
|
Valeur totale de la métrique au cours de la période de contrôle, tous segments confondus. |
|
|
Valeur attendue de la métrique au cours de la période de test, sur la base de la relation entre |
|
|
Valeur totale de la métrique au cours de la période de contrôle, tous segments confondus. |
|
|
Valeur totale de la métrique au cours de la période de test sur l’ensemble des segments. |
|
|
Le taux de croissance entre les périodes de contrôle et de test pour tous les segments, défini comme |
|
|
Indique si le segment spécifique est nouveau dans les données de test. |
|
|
Indique si le segment spécifique est manquant dans les données de test. |
Notes sur l’utilisation¶
Les métriques doivent être non négatives.
Les données en entrée doivent être limitées aux seules données de test ou de contrôle.
La durée d’exécution augmente avec le nombre de dimensions et la cardinalité de ces dimensions.
La cardinalité des dimensions catégorielles est automatiquement réduite lorsque leur cardinalité dépasse 5.