Monitoramento de verificações de qualidade de dados no Snowsight¶
Você pode usar uma página do Snowsight para monitorar a qualidade dos dados em uma tabela ou visualização. Isso fornece uma visão interativa das funções de métricas de dados (DMFs) associadas a um objeto, incluindo insights sobre os resultados dessas DMFs.
Para entender melhor a qualidade dos dados e as DMFs, consulte Introdução à qualidade de dados e funções de métricas de dados.
Introdução¶
Para começar a obter insights sobre a qualidade dos dados de um objeto, faça o seguinte:
Faça login no Snowsight.
No menu de navegação, selecione Catalog » Database Explorer e, em seguida, selecione o objeto.
Selecione a guia Data Quality.
Selecione Monitoring.
Faça uma das seguintes opções:
Se você nunca associou DMFs antes, selecione Set up, que abre uma planilha preenchida que ajuda você a começar a definir um cronograma, criar DMFs personalizadas e associar uma DMF ao objeto.
Se você já tem DMFs associadas ao objeto, comece a explorar! Você só poderá ver uma DMF se tiver os privilégios de controle de acesso apropriados.
Compreensão de quais DMFs estão em execução¶
As DMFs associadas ao objeto estão listadas em Quality Dimensions.
As DMFs são agrupadas da seguinte forma:
As DMFs do sistemas são agrupadas com base na categoria. Por exemplo, NULL_COUNT e BLANK_COUNT DMFs são agrupadas na categoria Accuracy. Quando há apenas uma DMF do sistema em uma categoria (por exemplo, ROW_COUNT DMF na categoria Volume), o nome da DMF é omitido.
Todas as DMFs personalizadas associadas ao objeto são agrupadas em Custom.
Para cada DMF, há uma linha para cada associação entre a DMF e o objeto. Lembre-se de que, desde que os argumentos da coluna sejam diferentes, a mesma DMF pode ser associada ao mesmo objeto várias vezes. Se houver várias linhas, selecione uma linha de coluna específica para ver os resultados da execução da DMF com essa coluna como argumento.
Por exemplo, suponha que a DMF NULL_COUNT foi associada à tabela t1 com o uso da seguinte instrução SQL:
ALTER TABLE t1
ADD DATA METRIC FUNCTION SNOWFLAKE.CORE.NULL_COUNT
ON (c1);
A linha que contém a coluna c1 mostra os resultados da execução dessa DMF.
O widget Run Schedule especifica a frequência com que a DMFs é executada. Isso corresponde ao valor definido para o parâmetro DATA_METRIC_SCHEDULE do objeto. Para obter mais informações, consulte Programe a execução da DMF.
Investigar verificações de qualidade com falha¶
Uma verificação de qualidade de dados consiste em uma associação DMF que tem uma expectativa. Uma expectativa permite definir critérios para determinar se os dados passam em uma verificação de qualidade de dados realizada por uma DMF. Quando a DMF retorna um valor, ele é comparado aos critérios da expectativa para determinar se os dados passaram ou não na verificação. Para obter mais informações sobre como usar expectativas para configurar verificações de qualidade de dados, consulte Uso de expectativas para implementar verificações de qualidade de dados.
Você pode usar o seguinte processo para investigar verificações de qualidade com falha.
- Etapa 1: Houve alguma verificação de qualidade com falha?
O número de verificações de qualidade com falha para todas as DMFs associadas ao objeto é exibido na parte superior da página Monitoring.
- Etapa 2: Qual categoria de DMF teve uma verificação de qualidade com falha?
Use o widget Checks by dimension para verificar o status de cada grupo de DMFs na página Monitoring. Vermelho indica que pelo menos uma DMF no grupo falhou na verificação de qualidade.
- Etapa 3: Qual associação de DMF teve uma verificação de qualidade com falha?
Se houver pelo menos uma verificação de qualidade com falha na categoria, expanda o widget da categoria e, em seguida, examine a coluna Quality Checks para encontrar a linha onde nem todas as verificações passaram.
- Etapa 4: O que é a verificação de qualidade?
Para entender melhor a verificação de qualidade que você está investigando:
Selecione a associação de DMF que falhou na verificação de qualidade dos dados. Um painel lateral é aberto.
Na seção Quality Checks, verifique a coluna Status para determinar qual verificação de qualidade falhou. Isso corresponde à expectativa que foi violada.
Para cada verificação de qualidade reprovada, use a coluna Expression para determinar o valor que a verificação de qualidade esperava que a DMF retornasse. Isso corresponde à expressão da expectativa.
- Etapa 5: Quais ativos são afetados pelo problema de qualidade?
Com o painel lateral aberto, localize a seção Impacted Assets para determinar quais outros objetos podem ser afetados pelo problema de qualidade. Para obter informações sobre como interpretar a lista de objetos, consulte Seção Impacted Assets.
- Etapa 6: Quais registros violaram a verificação de qualidade? (Selecione apenas as DMFs de sistema)
Com o painel lateral aberto, selecione View Failed Records.
Execute a consulta preenchida para ver os registros que falharam na verificação de qualidade. Essa consulta chama a função SYSTEM$DATA_METRIC_SCAN.
Para obter informações sobre como usar a função SYSTEM$DATA_METRIC_SCAN para corrigir os problemas de qualidade dos dados, consulte Uso de SYSTEM$DATA_METRIC_SCAN para correção de dados.
Detalhar os resultados da DMF¶
Cada linha em Quality Dimensions mostra os resultados mais recentes da DMF e uma tendência de resultados de sete dias. Para detalhar esses resultados, selecione uma linha para abrir um painel lateral. A seguir, vamos descrever os elementos desse painel lateral.
- Botão View Lineage
Selecione uma DMF para visualizar a linhagem do objeto associado a essa DMF.
- Botão View failed records (Selecione apenas as DMFs de sistema)
Se o DMF retornou um valor maior que 0, você pode determinar quais registros foram sinalizados como tendo problemas de qualidade. Por exemplo, se a DMF NULL_COUNT retornou
5, você pode determinar quais cinco registros contêm um valor NULL.Selecionar View failed records abre uma planilha já preenchida com uma consulta que chama a função SYSTEM$DATA_METRIC_SCAN. Execute essa consulta para retornar os registros que foram incluídos no resultado da DMF.
Para obter mais informações sobre o uso da função SYSTEM$DATA_METRIC_SCAN, consulte Remediação de problemas de qualidade de dados.
- Seção Arguments (somente DMFs com múltiplos argumentos)
Se uma DMF personalizada receber várias colunas como argumentos, elas serão listadas. Você pode selecionar uma coluna para navegar até a guia Columns do objeto que a contém.
- Seção Quality Checks
Lista as expectativas que foram adicionadas à associação entre a DMF e o objeto. Cada expectativa implementa uma verificação de qualidade de dados. Esta seção contém as seguintes colunas:
Name — Nome da expectativa.
Expression — Expressão da expectativa. Para obter mais informações, consulte Definição do que atende à expectativa.
Status — Indica se a expectativa foi violada na última vez que a DMF foi executada.
- Seção Impacted Assets
Exibe os objetos que estão a jusante na linhagem do objeto ao qual a DMF está associada. Se houver um problema de qualidade de dados, você poderá determinar quais outros objetos podem ter sido afetados. O conteúdo da seção depende se a DMF aceita um único argumento (como DMFs de sistema) ou se aceita vários argumentos.
Se a DMF aceitar uma coluna como argumento, o Snowflake verificará se o objeto a jusante contém dados dessa coluna. Por exemplo, suponha que a DMF NULL_COUNT identifique valores NULL na coluna
nameda tabelat1. Uma exibição a jusante criada a partir dot1só aparecerá na lista de ativos afetados se contiver dados da colunaname.Se a DMF aceitar várias colunas, todos os objetos a jusante serão exibidos, mesmo que os dados das colunas não existam no objeto a jusante.
- Seção Run History
Exibe graficamente o resultado da DMF ao longo do tempo para que você possa determinar tendências.