Introduction à la qualité des données et aux fonctions de métrique des données

La qualité des données utilise des fonctions de métrique des données (DMFs), qui comprennent les DMFs système fournies par Snowflake et les DMFs définies par l’utilisateur, pour contrôler l’état et l’intégrité de vos données. Vous pouvez utiliser des DMFs pour mesurer des paramètres clés, tels que, mais sans s’y limiter, le niveau d’actualisation et les comptes qui mesurent les doublons, les NULLs, les lignes et les valeurs uniques.

À propos de la qualité des données et des DMFs

La qualité des données est axée sur la connaissance de l’état et de l’intégrité de vos données, ce qui inclut le niveau d’actualisation et l’exactitude des données en ce qui concerne les vraies valeurs de données par rapport aux valeurs nulles ou aux champs vides dans une colonne, afin de prendre des décisions fondées sur les données. Vous pouvez mesurer la qualité de vos données en utilisant des DMFs. Snowflake fournit des DMFs systèmes intégrées dans le schéma SNOWFLAKE.CORE pour mesurer des paramètres communs sans avoir à les définir. Vous pouvez également définir vos propres DMFs personnalisées pour affiner plus précisément vos mesures de la qualité des données, et ces DMFs sont stockées dans la base de données et le schéma de votre choix.

Que vous utilisiez des DMFs systèmes, des DMFs personnalisées ou les deux, après avoir assigné une DMF à une table ou à une vue, Snowflake enregistre les résultats de la planification de la DMF dans une table d’événements dédiée des fonctions de métrique des données. Vous pouvez spécifier la fréquence d’appel de la DMF. Par exemple, vous pouvez programmer l’exécution de DMFs sur une table particulière trois fois par jour. Vous pouvez modifier la fréquence si nécessaire en fonction de vos propres exigences internes en matière de qualité des données. Toutes les DMFs qui sont placées sur la table suivent la même planification.

Après avoir planifié l’exécution de DMFs, vous pouvez configurer des alertes pour vous informer des modifications apportées à la qualité des données. En combinant les fonctionnalités de DMF et d’alerte, vous pouvez disposer de notifications de seuil cohérentes pour la qualité des données sur les tables que vous mesurez. Ces informations améliorent votre gouvernance des données en permettant :

  • Aux gestionnaires de données de connaître l’état actuel de leurs données sur la base d’une métrique particulière.

  • Aux ingénieurs des données de prendre des mesures immédiates sur les tables et les vues importantes.

  • Aux administrateurs de la plateforme de veiller à ce que la surveillance de la qualité des données se fasse dans le respect des coûts, de la cohérence et de la performance.

Le workflow relatif à la qualité des données, qui consiste à définir, mesurer et surveiller les données, peut ensuite être appliqué à d’autres charges de travail.

Définition des contrôles qualité

Une DMF renvoie une valeur, par exemple le nombre de valeurs NULL dans une colonne. Elle ne définit toutefois pas la valeur que vous attendez de la part de la DMF.

Si vous souhaitez définir des critères pour déterminer si la valeur d’une DMF est conforme à un contrôle de qualité des données, vous pouvez créer une attente pour l’association entre la DMF et la table. Lorsqu’une DMF renvoie une valeur, cette valeur est comparée à l’attente pour déterminer si les données sont conformes ou non au contrôle qualité.

Pour plus d’informations, voir Utilisation des attentes pour mettre en œuvre des contrôles de qualité des données.

Types de tables pris en charge

Vous pouvez définir une DMF sur les types d’objets de table suivants :

  • Table dynamique

  • Table des événements

  • Table externe

  • Table Apache Iceberg™

  • Vue matérialisée

  • Table (CREATE TABLE), y compris les tables temporaires et transitoires

  • Vue

Vous ne pouvez pas définir de DMF sur une table hybride ou un objet de flux.

Facturation et tarification

Snowflake crée et gère les objets de l’entrepôt virtuel pour prendre en charge cette fonction. Vous pouvez utiliser cette fonction sans avoir à provisionner ou à utiliser des ressources d’entrepôt virtuel supplémentaires en dehors de votre workflow normal de requête SQL.

L’appel d’une DMF utilise des ressources de calcul sans serveur, comme décrit plus en détail dans la Table de consommation du service Snowflake. Le tableau annonce le prix du crédit par région cloud et édition Snowflake.

Les crédits que vous utilisez sont répertoriés dans la catégorie « Data Quality Monitoring » sur votre facture mensuelle. Ces crédits comprennent le calcul consommé par toutes les métriques de qualité des données définies par le système ou par l’utilisateur que vous utilisez. La création d’une DMF ne vous est pas facturée.

  • La facturation n’a lieu que lorsqu’une DMF planifiée est calculée pour un objet. Vous n’êtes pas facturé pour l’utilisation non planifiée de la fonction de métrique de données, comme l’appel d’une DMF avec une instruction SELECT.

  • L’infrastructure de journalisation consolide les sorties de métriques dans la table d’événements. La consommation induite par le service de journalisation apparaît sur votre facture mensuelle sous la rubrique « Journalisation ».

Pour plus d’informations, voir Utilisation du crédit sans serveur.

Astuce

Vous pouvez interroger l” DATA_QUALITY_MONITORING_USAGE_HISTORY pour suivre votre consommation de crédit liée à l’utilisation de DMFs sur votre compte.

Avantages

L’utilisation de DMFs améliore vos efforts en matière de qualité des données et offre les avantages suivants :

Faciliter la conformité :

En connaissant l’état de vos données, il est plus facile de démontrer comment vous respectez les normes de conformité et de réglementation. Vous diminuez ainsi les risques et améliorez votre gouvernance des données.

Respecter les accords de niveau de service (SLAs) :

Des métriques précises des données, telles que le niveau d’actualisation, permettent de respecter des SLAs entre les fournisseurs de données, les consommateurs de données et les clients.

Crédibilité :

Les DMFs fournissent une validation des données, ce qui facilite la prise de décisions fondées sur des données fiables.

Cohérence :

L’utilisation de DMFs systèmes et l’utilisation répétée de DMFs personnalisées permettent une évaluation cohérente de la qualité des données au fil du temps. La crédibilité de vos données s’en trouve renforcée.

Optimisation pour des cas d’utilisation spécifiques :

Les DMFs personnalisées permettent aux ingénieurs de données de concevoir des métriques précises pour mesurer les données, ce qui conduit à des optimisations plus précises pour des applications ciblées des données.

Mesure automatisée :

L’appel d’une DMF est automatisé une fois que vous avez affecté la DMF à une table ou à une vue et spécifié la planification de l’exécution de la DMF. Aucun travail supplémentaire n’est nécessaire pour mesurer activement la qualité de vos données. Pour plus d’informations, voir Planification de l’exécution de la DMF et Vue des résultats d’une fonction de mesure des données

Gestion des performances :

Snowflake évalue la façon dont vous utilisez les DMFs et optimise l’évaluation des requêtes afin de fournir des performances optimales.

Considérations

  • Pour plus d’informations sur la réplication et les DMFs, voir Réplication des fonctions de métrique des données (DMFs).

  • Pour définir une DMF sur une table, le rôle de propriétaire de la table doit se voir attribuer le privilège global EXECUTE DATA METRIC FUNCTION (au niveau du compte). Par conséquent, le rôle de propriétaire de la table doit être un rôle personnalisé défini par l’utilisateur que vous avez créé avec la commande CREATE ROLE ou un rôle système, tel que le rôle SYSADMIN.

    Vous ne pouvez pas accorder de privilèges globaux aux rôles de base de données, car les rôles de base de données sont limités à la base de données dans laquelle ils existent. Si vous avez une table qui appartient à un rôle de base de données et que vous souhaitez définir une DMF sur cette table, vous devez transférer le privilège OWNERSHIP de la table à un rôle personnalisé ou à un rôle système. Pour plus d’informations, voir GRANT OWNERSHIP.

Limitations

Notez les limitations suivantes lors de l’utilisation de DMFs :

  • Définition d’DMFs sur des objets :

    Vous ne pouvez avoir que 10 000 associations totales de DMFs sur des objets par compte. Chaque instance de définition de DMF sur une table ou une vue compte pour une association.

  • Partage des données :

    Vous ne pouvez pas accorder de privilèges à une DMF pour partager ou définir une DMF sur une table ou une vue partagée.

  • La définition d’une DMF sur une balise d’objet n’est pas prise en charge.

  • Vous ne pouvez pas définir une DMF sur les objets d’un compte de lecteur.

  • Les comptes d’essai ne prennent pas en charge cette fonction.