Surveillance des contrôles de qualité des données dans Snowsight

Vous pouvez utiliser une page de Snowsight pour contrôler la qualité des données d’une table ou d’une vue. Celle-ci fournit une vue interactive des fonctions de métrique des données (DMFs) qui sont associées à un objet, y compris des informations sur les résultats de ces DMFs.

Pour mieux comprendre la qualité des données et les DMFs, consultez Introduction à la qualité des données et aux fonctions de métrique des données.

Prise en main

Pour commencer à obtenir des informations sur la qualité des données d’un objet, procédez comme suit :

  1. Connectez-vous à Snowsight.

  2. Dans le menu de navigation, sélectionnez Catalog » Database Explorer, puis sélectionnez l’objet.

  3. Sélectionnez l’onglet Data Quality.

  4. Sélectionnez Monitoring.

  5. Effectuez au choix :

    • Si vous n’avez encore jamais associé de DMFs, sélectionnez Set up afin d’ouvrir une feuille de calcul préremplie qui vous permettra de commencer à définir une planification, à créer des DMFs personnalisés et à associer une DMF à l’objet.

    • Si vous avez déjà associé des DMFs à l’objet, commencez à les explorer ! Vous ne pouvez voir une DMF que si vous disposez des privilèges de contrôle d’accès appropriés.

Comprendre quelles DMFs sont en cours d’exécution

Les DMFs associées à l’objet sont répertoriées sous Quality Dimensions.

Les DMFs sont regroupées comme suit :

  • Les DMFs système sont regroupées en fonction de leur catégorie. Par exemple, les DMFs NULL_COUNT et BLANK_COUNT sont regroupées dans la catégorie Accuracy. Lorsqu’il n’existe qu’une seule DMF système dans une catégorie (par exemple, la DMF ROW_COUNT dans la catégorie Volume), le nom de la DMF est omis.

  • Toutes les DMFs personnalisées associées à l’objet sont regroupées sous Custom.

Pour chaque DMF, il existe une ligne pour chaque association entre la DMF et l’objet. N’oubliez pas que tant que les arguments de colonnes sont différents, la même DMF peut être associée plusieurs fois au même objet. S’il existe plusieurs lignes, sélectionnez une ligne de colonne spécifique pour voir les résultats de l’exécution de la DMF avec cette colonne comme argument.

Par exemple, supposons que la DMF NULL_COUNT a été associée à la table t1 à l’aide de l’instruction SQL suivante :

ALTER TABLE t1
  ADD DATA METRIC FUNCTION SNOWFLAKE.CORE.NULL_COUNT
    ON (c1);
Copy

La ligne contenant la colonne c1 affiche les résultats de l’exécution de cette DMF.

Le widget Run Schedule spécifie la fréquence à laquelle les DMFs sont en cours d’exécution. Celle-ci correspond à la valeur qui a été définie pour le paramètre DATA_METRIC_SCHEDULE de l’objet. Pour plus d’informations, voir Planification de l’exécution de la DMF.

Enquêter sur les contrôles qualité ayant échoué

Un contrôle de la qualité des données consiste en une association de DMF qui possède une attente. Une attente vous permet de définir des critères permettant de déterminer si les données sont conformes à un contrôle qualité effectué par une DMF. Lorsque la DMF renvoie une valeur, celle-ci est comparée aux critères de l’attente afin de déterminer si les données sont conformes ou non au contrôle. Pour plus d’informations sur l’utilisation des attentes pour configurer des contrôles de qualité des données, consultez Utilisation des attentes pour mettre en œuvre des contrôles de qualité des données.

Vous pouvez suivre la procédure suivante pour enquêter sur les contrôles qualité ayant échoué :

Étape 1 : Y a-t-il des contrôles qualité qui ont échoué ?

Le nombre de contrôles qualité ayant échoué pour toutes les DMFs associées à l’objet s’affiche en haut de la page Monitoring.

Étape 2 : Quelle catégorie de DMF n’a pas passé un contrôle qualité ?

Utilisez le widget Checks by dimension pour vérifier l’état de chaque groupe de DMFs sur la page Monitoring. Le rouge indique qu’au moins une DMF du groupe n’a pas passé un contrôle qualité.

Étape 3 : Quelle association de DMF n’a pas passé un contrôle qualité ?

S’il existe au moins un contrôle qualité ayant échoué dans la catégorie, développez le widget de cette catégorie, puis analysez la colonne Quality Checks pour trouver la ligne où tous les contrôles n’ont pas abouti.

Étape 4 : En quoi le contrôle qualité consiste-t-il ?

Pour mieux comprendre le contrôle qualité sur lequel vous enquêtez, procédez comme suit :

  1. Sélectionnez l’association de DMF qui n’a pas passé le contrôle de qualité des données. Un panneau latéral s’ouvre.

  2. Dans la section Quality Checks, vérifiez la colonne Status pour déterminer le contrôle qualité qui a échoué. Celle-ci correspond à l’attente qui n’a pas été respectée.

  3. Pour chaque contrôle qualité ayant échoué, utilisez la colonne Expression pour déterminer la valeur que la DMF aurait dû renvoyer pour le contrôle qualité. Celle-ci correspond à l’expression de l’attente.

Étape 5 : Quelles sont les ressources impactées par le problème de qualité ?

Une fois le panneau latéral ouvert, recherchez la section Impacted Assets afin de pouvoir déterminer quels autres objets peuvent être affectés par le problème de qualité. Pour obtenir des informations sur l’interprétation de la liste des objets, consultez Section Impacted Assets.

Étape 6 : Quels enregistrements ont enfreint le contrôle qualité ? (Sélectionnez les DMFs système uniquement.)
  1. Une fois le panneau latéral ouvert, sélectionnez View Failed Records.

  2. Exécutez la requête préremplie pour voir les enregistrements qui n’ont pas passé le contrôle qualité. Cette requête appelle la fonction SYSTEM$DATA_METRIC_SCAN.

    Pour obtenir des informations sur l’utilisation de la fonction SYSTEM$DATA_METRIC_SCAN pour remédier aux problèmes de qualité des données, consultez Utilisation de la fonction SYSTEM$DATA_METRIC_SCAN pour corriger les données.

Analyser de manière approfondie les résultats relatifs à la DMF

Chaque ligne sous Quality Dimensions affiche les résultats les plus récents de la DMF et une tendance des résultats sur sept jours. Pour analyser de manière approfondie ces résultats, sélectionnez une ligne afin d’ouvrir un panneau latéral. Les éléments suivants décrivent les éléments de ce panneau latéral :

Bouton View Lineage

Sélectionnez une DMF pour voir la lignée de l’objet associé à cette DMF.

Bouton View failed records (Sélectionnez les DMFs système uniquement.)

Si la DMF a renvoyé une valeur supérieure à 0, vous pouvez déterminer quels enregistrements ont été signalés comme présentant des problèmes de qualité. Par exemple, si la DMF NULL_COUNT a renvoyé 5, vous pouvez alors déterminer les cinq enregistrements contenant une valeur NULL.

Sélectionner View failed records ouvre une feuille de calcul préremplie avec une requête qui appelle la fonction SYSTEM$DATA_METRIC_SCAN. Exécutez cette requête pour renvoyer les enregistrements qui ont été inclus dans le résultat de la DMF.

Pour plus d’informations sur l’utilisation de la fonction SYSTEM$DATA_METRIC_SCAN, consultez Correction des problèmes de qualité des données.

Section Arguments (DMFs multi-arguments uniquement)

Si une DMF personnalisée prend plusieurs colonnes comme arguments, ces colonnes sont répertoriées. Vous pouvez sélectionner une colonne pour naviguer dans l’onglet Columns de l’objet qui contient cette colonne.

Section Quality Checks

Liste les attentes qui ont été ajoutées à l’association entre la DMF et l’objet. Chaque attente met en œuvre un contrôle de qualité des données. Cette section contient les colonnes suivantes :

  • Name — Nom de l’attente.

  • Expression — Expression de l’attente. Pour plus d’informations, voir Définir ce qui répond à l’attente.

  • Status — Indique si l’attente n’a pas été respectée la dernière fois que la DMF a été exécutée.

Section Impacted Assets

Affiche les objets qui sont en aval dans la lignée de l’objet auquel la DMF est associée. S’il existe un problème de qualité des données, vous pouvez déterminer quels autres objets sont éventuellement affectés. Le contenu de la section dépend du fait que la DMF accepte un seul argument (comme les DMFs système) ou plusieurs arguments.

  • Si la DMF accepte une seule colonne comme argument, Snowflake vérifie si l’objet en aval contient des données de cette colonne. Par exemple, supposons que la DMF NULL_COUNT identifie les valeurs NULL dans la colonne name de la table t1. Une vue en aval conçue à partir de t1 n’apparaît dans la liste des ressources impactées que si elle contient des données provenant de la colonne name.

  • Si la DMF accepte plusieurs colonnes, tous les objets en aval apparaissent, même si les données des colonnes n’existent pas dans l’objet en aval.

Section Run History

Affiche graphiquement le résultat de la DMF au fil du temps afin que vous puissiez déterminer des tendances.