Categorias:

Funções de tabela

TOP_INSIGHTS (SNOWFLAKE.ML)

Encontra as dimensões mais importantes em um conjunto de dados, cria segmentos a partir dessas dimensões e, em seguida, detecta quais desses segmentos influenciaram a métrica.

TOP_INSIGHTS é adequado para extrair causas raiz de conjuntos de dados que possuem um grande número de dimensões. Dimensões contínuas também são suportadas sem pré-processá-las em dimensões categóricas, e os resultados podem indicar dimensões com condições negativas (por exemplo, “a região não é a América do Norte”).

Sintaxe

SNOWFLAKE.ML.TOP_INSIGHTS(
  <categorical_dimensions>, <continuous_dimensions>,
  <metric>, <label> )
Copy

Argumentos

categorical_dimensions

OBJECT contendo um mapeamento 1:1 entre nomes de dimensão e colunas categóricas associadas. O valor pode ser de uma única coluna ou derivado de uma simples combinação de colunas.

continuous_dimensions

OBJECT contendo um mapeamento 1:1 entre nomes de dimensão e colunas contínuas associadas. O valor pode ser de uma única coluna ou derivado de uma simples combinação de colunas. Valores de dimensões contínuas não devem ser NULL.

metric

Coluna FLOAT que representa uma métrica de destino que está sendo investigada. Este valor deve ser estritamente não negativo. O valor pode ser de uma única coluna ou derivado de uma simples combinação de colunas.

label

Coluna BOOLEAN que distingue entre dados de controle e de teste. TRUE representa dados de teste e FALSE representa dados de controle. O valor pode ser de uma única coluna ou derivado de uma simples combinação de colunas (por exemplo, uma comparação de datas).

Saída

A função retorna as seguintes colunas:

Nome da coluna

Tipo de dados

Descrição

contributor

ARRAY

ARRAY de cadeias de caracteres que definem um segmento ou insight do algoritmo.

Por exemplo:

[
  "not country = canada",
  "length_of_vertical <= 4.5",
  "vertical = finance"
]
Copy

metric_control

FLOAT

O valor total da métrica no período de controle em um segmento específico.

metric_test

FLOAT

O valor total da métrica no período de teste em um segmento específico.

surprise

FLOAT

A quantidade que metric_test excede seu valor esperado com base na alteração geral da métrica entre os períodos.

relative_change

FLOAT

Uma quantificação de como a métrica no segmento específico muda ao longo dos períodos em comparação com a métrica geral nos mesmos períodos:

  • Uma mudança relativa superior a 1,0 significa que esse segmento cresceu a uma taxa mais alta do que a métrica geral ao longo dos períodos, impulsionando o crescimento.

  • Uma mudança relativa inferior a 1,0 significa que esse segmento cresceu a uma taxa menor do que a métrica geral, levando ao declínio.

growth_rate

FLOAT

O valor total da métrica no período de controle em todos os segmentos.

expected_metric_test

FLOAT

O valor esperado da métrica no período de teste, com base na relação entre overall_metric_control e overall_metric_test.

overall_metric_control

FLOAT

O valor total da métrica no período de controle em todos os segmentos.

overall_metric_test

FLOAT

O valor total da métrica no período de teste em todos os segmentos.

overall_growth_rate

FLOAT

A taxa de crescimento entre os períodos de controle e teste em todos os segmentos, definida como overall_metric_test dividida por overall_metric_control.

new_in_test

BOOLEAN

Indica se o segmento específico é novo nos dados de teste.

missing_in_test

BOOLEAN

Indica se o segmento específico está faltando nos dados de teste.

Notas de uso

  • As métricas devem ser não negativas.

  • Os dados de entrada devem ser restritos apenas a dados de teste ou controle.

  • O tempo de execução é dimensionado com o número de dimensões e a cardinalidade dessas dimensões.

  • A cardinalidade de dimensões categóricas é automaticamente reduzida quando sua cardinalidade excede 5.

Exemplo

Veja o exemplo de Contribution Explorer.