Introdução às verificações de qualidade de dados¶
As verificações de qualidade de dados no Snowflake validam continuamente a integridade dos seus dados. Essas verificações ajudam você a cumprir os padrões regulatórios, atender aos acordos de nível de serviço por meio de métricas precisas e desenvolver credibilidade em decisões orientadas por dados fornecendo validação de dados automatizada e consistente. O Cortex Data Quality permite que você utilize AI para sugerir verificações de qualidade de dados de maneira automatizada, com base nas características dos seus metadados e padrões de uso. Isso elimina a necessidade de definir verificações manualmente e acelera o processo de configuração, mantendo seus dados seguros dentro do Snowflake. Uma vez configuradas, as verificações de qualidade são executadas automaticamente no cronograma escolhido, relatando violações para que você possa tomar medidas corretivas.
Introdução¶
O Snowflake fornece uma interface da Web para configurar verificações de qualidade de dados e monitorar os resultados delas.
Para começar, faça um dos seguintes procedimentos:
Para configurar verificações de qualidade de dados para seus dados, consulte Usar o Snowsight para configurar verificações de qualidade de dados.
Para monitorar os resultados das suas verificações de qualidade de dados existentes, consulte Monitoramento de verificações de qualidade de dados no Snowsight.
Conceitos básicos de verificações de qualidade de dados¶
- Função de métricas de dados (DMF)
Uma DMF mede um atributo dos seus dados, como quantos valores NULL existem em uma coluna ou com que frequência uma tabela está sendo atualizada. A DMF retorna um valor com base no estado atual dos seus dados, mas não define se esse valor constitui um problema de qualidade de dados; uma DMF é um componente básico de uma verificação de qualidade de dados.
O Snowflake fornece DMFs do sistema para medir métricas comuns sem exigir configuração. Para obter uma lista das DMFs do sistema disponíveis para várias dimensões, consulte Funções de métricas de dados do sistema.
Se não houver uma DMF do sistema para a métrica que você deseja monitorar, você pode definir uma DMF personalizada. Para saber como criar uma DMF personalizada, consulte Funções métricas de dados personalizadas.
- Expectativas
Uma expectativa é combinada com uma DMF para criar uma verificação de qualidade de dados. Quando uma DMF retorna um valor, ele é comparado à definição da expectativa para determinar se os dados foram aprovados ou reprovados na verificação. Os valores de retorno que falham na verificação são relatados como violações de expectativa para que você possa tomar as medidas apropriadas.
Se você usar o Snowsight para criar uma verificação de qualidade de dados, deverá escolher a DMF e definir a expectativa ao mesmo tempo. Você também pode usar SQL para trabalhar diretamente com expectativas.
- Detecção de anomalias
A detecção de anomalias usa dados históricos para detectar automaticamente quando um valor de retorno de DMF está acima ou abaixo de um intervalo previsto. Atualmente, o Snowflake pode detectar automaticamente anomalias no volume e na atualização dos seus dados. Para obter mais informações, consulte Detecção de anomalias na qualidade de dados.
- Cronograma da DMF
O cronograma da DMF de uma tabela ou exibição determina a frequência com que uma DMF é executada. Como uma DMF alimenta uma verificação de qualidade de dados, o cronograma de DMF determina a frequência com que a verificação de qualidade é realizada. Por padrão, o cronograma de DMF executa uma DMF uma vez por hora. Para ajustar o cronograma de uma tabela ou exibição, consulte Ajustar a frequência de execução das verificações de qualidade.
O cronograma de DMF não afeta a frequência com que o Snowflake verifica se há uma anomalia.
Tipos de tabela aceitos¶
Você pode definir uma DMF nos seguintes tipos de objetos de tabela:
Tabela dinâmica
Tabela de eventos
Tabela externa
Tabela Apache Iceberg™
Exibição materializada
Tabela (CREATE TABLE), incluindo tabelas temporárias e transitórias
Exibição
Você não pode definir uma DMF em uma tabela híbrida ou um objeto de fluxo.
Considerações sobre custo¶
As DMFs que alimentam as verificações de qualidade de dados usam recursos de computação sem servidor que incorrem em custos. Para obter informações sobre os preços desses custos, consulte a Tabela de consumo de serviços do Snowflake.
Os créditos consumidos pelos recursos de computação sem servidor são listados na categoria «Monitoramento da qualidade dos dados» em sua fatura mensal. Esses créditos incluem a computação consumida por todas as métricas de qualidade de dados definidas pelo sistema ou pelo usuário que você usa. Você não é cobrado pela criação de uma DMF.
O faturamento ocorre apenas quando uma DMF agenda é computada em um objeto. Você não será cobrado pelo uso não agendado da função de métricas de dados, como chamar uma DMF com um instrução SELECT.
A infraestrutura de registro em log consolida saídas de métricas na tabela de eventos. O consumo incorrido pelo serviço de registro em log aparece em sua fatura mensal como “Registro em log”.
Dica
Para acompanhar o consumo relacionado às verificações de qualidade, você pode consultar as seguintes exibições:
DATA_QUALITY_MONITORING_USAGE_HISTORY para acompanhar o consumo de créditos relacionado ao uso de DMFs em sua conta.
METERING_DAILY_HISTORY para acompanhar os créditos diários consumidos por uma conta em sua organização. A coluna
service_typeespecificaDATA_QUALITY_MONITORING.
Replicação¶
Para obter mais informações sobre replicação e DMFs, consulte Replicação de funções de métricas de dados (DMFs).
Limitações¶
Observe as seguintes limitações ao usar DMFs:
Você só pode ter 10.000 associações totais de DMFs em objetos por conta. Cada instância de configuração de uma DMF em uma tabela ou exibição conta como uma associação.
Compartilhamento de dados: você não pode conceder privilégios em uma DMF para um compartilhamento ou definir uma DMF em uma tabela ou exibição compartilhada.
A definição de uma DMF em uma tag de objeto não é compatível.
Você não pode definir uma DMF em objetos em uma conta de leitor.
Contas de teste não são compatíveis com esse recurso.