Catégories :

Fonctions de table

TOP_INSIGHTS

Nom complet : SNOWFLAKE.ML.TOP_INSIGHTS

Détermine les dimensions les plus importantes d’un ensemble de données, puis construit des segments à partir de ces dimensions et détecte lesquels de ces segments ont influencé la métrique.

TOP_INSIGHTS est bien adapté à l’extraction des causes profondes à partir d’ensembles de données comportant un grand nombre de dimensions. Les dimensions continues sont également prises en charge sans prétraitement en dimensions catégorielles, et les résultats peuvent indiquer des dimensions avec des conditions négatives (par exemple, « la région n’est pas l’Amérique du Nord »).

Syntaxe

SNOWFLAKE.ML.TOP_INSIGHTS(
  <categorical_dimensions>, <continuous_dimensions>,
  <metric>, <label> )
Copy

Arguments

categorical_dimensions

OBJECT contenant un mappage 1:1 entre les noms des dimensions et les colonnes catégorielles associées. La valeur peut provenir d’une seule colonne ou être dérivée d’une simple combinaison de colonnes.

continuous_dimensions

OBJECT contenant un mappage 1:1 entre les noms des dimensions et les colonnes continues associées. La valeur peut provenir d’une seule colonne ou être dérivée d’une simple combinaison de colonnes. Les valeurs des dimensions continues ne doivent pas être NULL.

metric

Colonne FLOAT représentant une métrique cible qui fait l’objet d’une enquête. Cette valeur doit être strictement non négative. La valeur peut provenir d’une seule colonne ou être dérivée d’une simple combinaison de colonnes.

label

Colonne BOOLEAN qui fait la distinction entre les données de contrôle et les données de test. TRUE représente les données de test et FALSE représente les données de contrôle. La valeur peut provenir d’une seule colonne ou être dérivée d’une simple combinaison de colonnes (par exemple, une comparaison de dates).

Sortie

La fonction renvoie les colonnes suivantes :

Nom de la colonne

Type de données

Description

contributor

ARRAY

ARRAY de chaînes qui définissent un segment ou un aperçu de l’algorithme.

Par exemple :

[
  "not country = canada",
  "length_of_vertical <= 4.5",
  "vertical = finance"
]
Copy

metric_control

FLOAT

Valeur totale de la métrique au cours de la période de contrôle dans un segment spécifique.

metric_test

FLOAT

Valeur totale de la métrique au cours de la période de test dans un segment spécifique.

surprise

FLOAT

Quantité que metric_test dépasse par rapport à sa valeur attendue sur la base de l’évolution globale de la métrique sur l’ensemble des périodes.

relative_change

FLOAT

Quantification de l’évolution de la métrique dans le segment spécifique au fil des périodes par rapport à la métrique globale au cours des mêmes périodes :

  • Une variation relative supérieure à 1,0 signifie que ce segment a progressé à un rythme plus élevé que l’ensemble de la métrique sur l’ensemble des périodes, stimulant ainsi la croissance.

  • Une variation relative inférieure à 1,0 signifie que ce segment a progressé à un rythme inférieur à celui de la métrique globale, entraînant un déclin.

growth_rate

FLOAT

Valeur totale de la métrique au cours de la période de contrôle, tous segments confondus.

expected_metric_test

FLOAT

Valeur attendue de la métrique au cours de la période de test, sur la base de la relation entre overall_metric_control et overall_metric_test.

overall_metric_control

FLOAT

Valeur totale de la métrique au cours de la période de contrôle, tous segments confondus.

overall_metric_test

FLOAT

Valeur totale de la métrique au cours de la période de test sur l’ensemble des segments.

overall_growth_rate

FLOAT

Le taux de croissance entre les périodes de contrôle et de test pour tous les segments, défini comme overall_metric_test divisé par overall_metric_control.

new_in_test

BOOLEAN

Indique si le segment spécifique est nouveau dans les données de test.

missing_in_test

BOOLEAN

Indique si le segment spécifique est manquant dans les données de test.

Notes sur l’utilisation

  • Les métriques doivent être non négatives.

  • Les données en entrée doivent être limitées aux seules données de test ou de contrôle.

  • La durée d’exécution augmente avec le nombre de dimensions et la cardinalité de ces dimensions.

  • La cardinalité des dimensions catégorielles est automatiquement réduite lorsque leur cardinalité dépasse 5.