Introdução à qualidade de dados e funções de métricas de dados

A qualidade de dados usa funções de métricas de dados (DMFs), que incluem as DMFs de sistema fornecidas pela Snowflake e definidas pelo usuário DMFs, para monitorar o estado e a integridade de seus dados. Você pode usar DMFs para avaliar métricas-chave, como, mas não se limitando a, a atualidade e contagens que medem duplicatas, NULLs, linhas e valores exclusivos.

Sobre qualidade de dados e DMFs

A qualidade de dados se concentra em conhecer o estado e a integridade de seus dados, o que inclui a atualização e a precisão dos dados em relação aos valores verdadeiros dos dados em comparação com valores nulos ou campos em branco em uma coluna, para tomar decisões baseadas em dados. Você pode avaliar a qualidade de seus dados usando DMFs. O Snowflake fornece DMFs integradas ao sistema no esquema SNOWFLAKE.CORE para avaliar métricas comuns sem precisar defini-las. Você também pode definir suas próprias DMFs personalizadas para realizar ajuste fino de suas medições de qualidade de dados com mais precisão, sendo estas DMFs armazenadas no banco de dados e no esquema de sua escolha.

Independentemente de você usar DMFs de sistema, DMFs personalizados ou ambos, depois de atribuir uma DMF a uma tabela ou exibição, o Snowflake registra os resultados do agendamento da DMF em uma tabela de evento dedicada para funções de métricas de dados. Você pode especificar a frequência com que a DMF será chamada. Por exemplo, você pode agendar as DMFs em uma tabela específica para serem executadas três vezes ao dia. Você pode modificar a frequência conforme necessário com base em seus próprios requisitos internos de qualidade de dados. Todas as DMFs definidas na tabela seguem o mesmo cronograma.

Após agendar as DMFs para execução, você pode configurar alertas para notificá-lo quando ocorrerem alterações na qualidade dos dados. Ao combinar a DMF e a funcionalidade de alerta, você pode ter notificações de limite consistentes para qualidade de dados nas tabelas que você mede. Esses insights aprimoram sua postura de governança de dados ao permitir o seguinte:

  • Os administradores de dados devem conhecer o estado atual de seus dados com base em uma métrica específica.

  • Os engenheiros de dados devem tomar medidas imediatas em tabelas e exibições importantes.

  • Os administradores de plataforma devem garantir que o monitoramento de qualidade de dados seja feito com custo, consistência e desempenho.

O fluxo de trabalho de qualidade de dados para definir, medir e monitorar dados pode então ser aplicado a cargas de trabalho adicionais.

Definição de verificações de qualidade

Uma DMF retorna um valor, por exemplo, o número de valores NULL em uma coluna. No entanto, ela não define o valor que você espera que seja retornado pela DMF.

Se você deseja definir critérios para determinar se o valor de uma DMF passa por uma verificação de qualidade de dados, é possível criar uma expectativa para a associação entre a DMF e a tabela. Quando uma DMF retorna um valor, esse valor é comparado com a expectativa para determinar se os dados foram aprovados ou reprovados na verificação de qualidade.

Para obter mais informações, consulte Uso de expectativas para implementar verificações de qualidade de dados.

Tipos de tabela aceitos

Você pode definir uma DMF nos seguintes tipos de objetos de tabela:

  • Tabela dinâmica

  • Tabela de eventos

  • Tabela externa

  • Tabela Apache Iceberg™

  • Exibição materializada

  • Tabela (CREATE TABLE), incluindo tabelas temporárias e transitórias

  • Exibição

Você não pode definir uma DMF em uma tabela híbrida ou um objeto de fluxo.

Faturamento e preços

O Snowflake cria e gerencia os objetos de warehouse virtual para oferecer suporte a esse recurso. Você pode usar esse recurso sem precisar provisionar ou usar quaisquer recursos adicionais de warehouse virtual fora de seu fluxo de trabalho normal de consultas SQL.

Chamar uma DMF usa recursos de computação sem servidor, conforme descrito com mais detalhes na Tabela de consumo de serviços do Snowflake. A tabela lista os preços de crédito por região de nuvem e edição do Snowflake.

Os créditos que você usa são listados na categoria “Data Quality Monitoring” em sua fatura mensal. Esses créditos incluem a computação consumida por todas as métricas de qualidade de dados definidas pelo sistema ou pelo usuário que você usa. Você não é cobrado pela criação de uma DMF.

  • O faturamento ocorre apenas quando uma DMF agenda é computada em um objeto. Você não será cobrado pelo uso não agendado da função de métricas de dados, como chamar uma DMF com um instrução SELECT.

  • A infraestrutura de registro em log consolida saídas de métricas na tabela de eventos. O consumo incorrido pelo serviço de registro em log aparece em sua fatura mensal como “Registro em log”.

Para obter mais informações, consulte Uso de crédito sem servidor.

Dica

Você pode consultar o DATA_QUALITY_MONITORING_USAGE_HISTORY para monitorar seu consumo de crédito relacionado ao uso de DMFs em sua conta.

Benefícios

O uso de DMFs melhora seus esforços de qualidade de dados e fornece estes benefícios:

Facilitação de conformidade

Ao conhecer o estado de seus dados, fica mais fácil demonstrar como você adere aos padrões de conformidade e regulatórios. Isso diminui seus riscos e melhora sua postura de governança de dados.

Cumpra os acordos ao nível de serviço (SLAs):

Métricas de dados precisas, como atualidade, ajudam no cumprimento de SLAs entre provedores de dados, consumidores de dados e clientes.

Credibilidade:

As DMFs fornecem a validação de dados, o que facilita a tomada de decisões confiável com base em dados.

Consistência:

Usar as DMFs do sistema e usar repetidamente as DMFs personalizadas adequadas leva a uma avaliação consistente da qualidade dos dados ao longo do tempo. Isso aumenta a credibilidade de seus dados.

Otimize para casos de uso específicos:

DMFs personalizadas permitem que engenheiros de dados desenvolvam métricas precisas para avaliar dados, o que leva a otimizações mais precisas para aplicativos específicos de dados.

Medição automatizada:

A chamada da DMF é automatizada depois que você atribui a DMF a uma tabela ou exibição e especifica o cronograma para a execução da DMF. Nenhum trabalho adicional é necessário para medir ativamente a qualidade de seus dados. Para obter mais informações, consulte Programe a execução da DMF e Visualização dos resultados de uma função de métricas de dados.

Gerenciamento de desempenho:

O Snowflake avalia como você usa as DMFs e otimiza a avaliação da consulta para fornecer o desempenho ideal de consulta.

Considerações

  • Para obter mais informações sobre replicação e DMFs, consulte Replicação de funções de métricas de dados (DMFs).

  • Para definir uma DMF em uma tabela, a função de proprietário da tabela deve receber o privilégio global EXECUTE DATA METRIC FUNCTION (nível de conta). Portanto, a função de proprietário da tabela deve ser uma função personalizada definida pelo usuário que você criou com o comando CREATE ROLE ou uma função do sistema, como a função SYSADMIN.

    Não é possível conceder privilégios globais a funções de banco de dados porque as funções de banco de dados têm como escopo o banco de dados no qual existem. Se você tiver uma tabela que pertence a uma função de banco de dados e quiser definir uma DMF nessa tabela, deverá transferir o privilégio OWNERSHIP da tabela para uma função personalizada ou função do sistema. Para obter mais informações, consulte GRANT OWNERSHIP.

Limitações

Observe as seguintes limitações ao usar DMFs:

  • Definição de DMFs em objetos:

    Você só pode ter 10.000 associações totais de DMFs em objetos por conta. Cada instância de configuração de uma DMF em uma tabela ou exibição conta como uma associação.

  • Compartilhamento de dados:

    Você não pode conceder privilégios em uma DMF para compartilhar ou definir uma DMF em uma tabela ou exibição compartilhada.

  • A definição de uma DMF em uma tag de objeto não é compatível.

  • Você não pode definir uma DMF em objetos em uma conta de leitor.

  • Contas de teste não são compatíveis com esse recurso.