Introduction aux contrôles de la qualité des données¶
Les contrôles de qualité des données dans Snowflake valident en permanence l’intégrité de vos données. Ces contrôles vous aident à vous conformer aux normes réglementaires, à respecter les accords de niveau de service grâce à des mesures précises et à renforcer la crédibilité dans les décisions fondées sur les données en fournissant une validation automatisée et cohérente des données. Cortex Data Quality vous permet de tirer parti de l’AI pour suggérer de manière agentique des contrôles de qualité des données en fonction des caractéristiques de vos métadonnées et de vos schémas d’utilisation, en éliminant la nécessité de définir manuellement les contrôles et en accélérant votre processus de configuration tout en conservant vos données en toute sécurité dans Snowflake. Une fois configurés, les contrôles qualité s’exécutent automatiquement selon la planification choisie, signalant les violations afin que vous puissiez prendre des mesures correctives.
Prise en main¶
Snowflake fournit une interface Web pour mettre en place des contrôles de qualité des données et surveiller les résultats de ces contrôles.
Pour commencer, effectuez l’une des opérations suivantes :
Pour configurer des contrôles de qualité de données pour vos données, voir Utiliser Snowsight pour mettre en place des contrôles de qualité des données.
Pour surveiller les résultats de vos contrôles existants de la qualité des données, voir Surveillance des contrôles de qualité des données dans Snowsight.
Concepts de base des contrôles de la qualité des données¶
- Fonction de métrique des données (DMF)
Une DMF mesure un attribut de vos données, par exemple combien de valeurs NULL existent dans une colonne ou la fréquence de mise à jour d’une table. La DMF renvoie une valeur basée sur l’état actuel de vos données, mais ne définit pas si cette valeur constitue un problème de qualité des données ; une DMF est l’élément constitutif d’un contrôle de qualité des données.
Snowflake fournit des DMFs systèmes pour mesurer des paramètres communs sans nécessiter de configuration. Pour obtenir une liste des DMFs systèmes disponibles pour différentes dimensions, voir Fonctions de métrique des données du système.
S’il n’existe pas de DMF système pour la métrique que vous souhaitez surveiller, vous pouvez définir une DMF personnalisée. Pour savoir comment créer une DMF personnalisée, voir Fonctions de mesure des données personnalisées.
- Attentes
Une attente est combinée à une DMF pour créer un contrôle de qualité des données. Lorsqu’une DMF renvoie une valeur, elle est comparée à la définition de l’attente pour déterminer si les données ont réussi ou échoué au contrôle. Les valeurs de retour qui échouent au contrôle sont signalées comme des violations des attentes afin que vous puissiez prendre les mesures appropriées.
Si vous utilisez Snowsight pour créer un contrôle de qualité des données, vous choisissez une DMF et définissez l’attente en même temps. Vous pouvez également utiliser SQL pour travailler directement avec les attentes.
- Détection des anomalies
La détection des anomalies utilise des données historiques pour détecter automatiquement quand une valeur de retour DMF est supérieure ou inférieure à une plage prédite. Actuellement, Snowflake peut détecter automatiquement les anomalies dans le volume et le niveau d’actualisation de vos données. Pour plus d’informations, voir Détection des anomalies dans la qualité des données.
- Planification DMF
La planification DMF pour une table ou une vue détermine la fréquence à laquelle une DMF s’exécute. Parce qu’une DMF alimente un contrôle de qualité des données, la planification DMF détermine la fréquence à laquelle le contrôle qualité est effectué. Par défaut, la planification DMF exécute une DMF une fois toutes les heures. Pour ajuster la planification d’une table ou d’une vue, voir Ajustez la fréquence d’exécution des contrôles de qualité.
La planification DMF n’affecte pas la fréquence à laquelle Snowflake vérifie s’il existe une anomalie.
Types de tables pris en charge¶
Vous pouvez définir une DMF sur les types d’objets de table suivants :
Table dynamique
Table des événements
Table externe
Table Apache Iceberg™
Vue matérialisée
Table (CREATE TABLE), y compris les tables temporaires et transitoires
Vue
Vous ne pouvez pas définir de DMF sur une table hybride ou un objet de flux.
Considérations relatives aux clients¶
Les DMFs qui alimentent les contrôles de qualité des données utilisent des ressources de calcul sans serveur qui entraînent des coûts. Pour connaître la tarification, consultez le tableau de consommation des services de Snowflake.
Les crédits consommés par les ressources de calcul sans serveur sont répertoriés dans la catégorie « Surveillance de la qualité des données » sur votre facture mensuelle. Ces crédits comprennent le calcul consommé par toutes les métriques de qualité des données définies par le système ou par l’utilisateur que vous utilisez. La création d’une DMF ne vous est pas facturée.
La facturation n’a lieu que lorsqu’une DMF planifiée est calculée pour un objet. Vous n’êtes pas facturé pour l’utilisation non planifiée de la fonction de métrique de données, comme l’appel d’une DMF avec une instruction SELECT.
L’infrastructure de journalisation consolide les sorties de métriques dans la table d’événements. La consommation induite par le service de journalisation apparaît sur votre facture mensuelle sous la rubrique « Journalisation ».
Astuce
Pour suivre la consommation liée aux contrôles qualité, vous pouvez interroger les vues suivantes :
DATA_QUALITY_MONITORING_USAGE_HISTORY pour suivre votre consommation de crédit liée à l’utilisation de DMFs sur votre compte.
METERING_DAILY_HISTORY pour suivre les crédits journaliers consommés pour un compte dans votre organisation. La colonne
service_typespécifieDATA_QUALITY_MONITORING.
Réplication¶
Pour plus d’informations sur la réplication et les DMFs, voir Réplication des fonctions de métrique des données (DMFs).
Limitations¶
Notez les limitations suivantes lors de l’utilisation de DMFs :
Vous ne pouvez avoir que 10 000 associations totales de DMFs sur des objets par compte. Chaque instance de définition de DMF sur une table ou une vue compte pour une association.
Partage de données : vous ne pouvez pas accorder de privilèges sur une DMF à partager ou définir une DMF sur une table ou une vue partagée.
La définition d’une DMF sur une balise d’objet n’est pas prise en charge.
Vous ne pouvez pas définir une DMF sur les objets d’un compte de lecteur.
Les comptes d’essai ne prennent pas en charge cette fonctionnalité.