Classification des données d’utilisation¶

Ce chapitre fournit des informations sur la manière de classer les tables d’un schéma, d’examiner les résultats de la classification et de définir les balises système sur les colonnes des tables via SQL ou Snowsight.

Vue d’ensemble¶

Un gestionnaire de données peut classer les tables d’un schéma afin de respecter les réglementations en matière de confidentialité des données. Ces tables comprennent les scénarios suivants :

Nouvelles tables dans un schéma.
Nouvelles colonnes ou colonnes modifiées dans une table au sein du même schéma.
Tables précédemment classées susceptibles de devoir de nouveau être classées.

L’évaluation de ces scénarios permet au gestionnaire de données de classer les informations sensibles et personnelles. La définition de balises système sur la colonne peut faciliter la surveillance des données. Par la suite, un ingénieur des données peut protéger les données personnelles et sensibles à l’aide d’une politique de masquage ou d’une politique d’accès aux lignes dans Snowsight ou via SQL.

Commencer à classer les données¶

Avant de classer une seule ou plusieurs tables d’un schéma :

Sélectionnez un flux de travail :
- Si vous préférez une approche programmatique, suivez les étapes décrites dans ces sections :
  - Utilisation de SQL pour classer une seule table
  - Utilisation de SQL pour classer de manière asynchrone les tables d’un schéma
- Si vous préférez utiliser l’interface Web, suivez les étapes à la section Utilisation de Snowsight pour classer les tables d’un schéma.
Décidez de l’entrepôt à utiliser. Par exemple, utilisez un entrepôt qui correspond au centre de coûts ou à l’unité opérationnelle auquel/à laquelle vous appartenez pour permettre un reporting et une budgétisation précis.
Tenez compte de la latence dans votre flux de travail. Snowsight met à jour la zone Databases de Snowsight toutes les 12 heures, après quoi les tables mises à jour peuvent être classées.
Vérifiez la configuration du contrôle d’accès pour votre rôle actuel :
- Utilisez une instruction SHOW GRANTS TO ROLE pour voir les droits sur les objets auxquels un utilisateur ayant ce rôle peut accéder. Le rôle utilisé doit au minimum bénéficier les droits suivants :
  - USAGE sur l’entrepôt à utiliser lors du processus de classification.
  - SELECT sur la table pour lancer le processus de classification.
  - Le rôle de base de données SNOWFLAKE.CORE_VIEWER, qui permet de définir les balises système sur les colonnes.
  - Le rôle de base de données SNOWFLAKE.GOVERNANCE_VIEWER pour interroger la vue Account Usage DATA_CLASSIFICATION_LATEST.
- Pour d’autres combinaisons de droits, voir la référence aux privilèges de la Classification des données.
- Le modèle de contrôle d’accès permet à différents personas de participer aux flux de travail. Par exemple, un gestionnaire de données peut mettre en zone de préparation la classification des tables dans un schéma, et l’ingénieur des données peut évaluer les résultats dans Snowsight. Sélectionnez le modèle de contrôle d’accès et le flux de travail qui vous conviennent le mieux.

Utilisation de SQL pour classer une seule table¶

Cette approche utilise SQL pour classer une table et définir des balises système sur les colonnes des tables. Consultez la section Commencer à classer les données pour vous assurer que le rôle utilisé dispose des droits de contrôle d’accès nécessaires pour classer les tables du schéma.

Cette procédure suppose que vous utilisiez un rôle titulaire des droits appropriés. Procédez comme suit pour utiliser SQL afin de classer les tables d’un schéma et de définir des balises système sur les colonnes des tables :

Identifiez une table à classer.
Appelez la procédure stockée SYSTEM$CLASSIFY pour classer et baliser les colonnes de la table :
CALL SYSTEM$CLASSIFY('hr.tables.empl_info', {'auto_tag': true});
Copy
Appelez la fonction de table Information Schema TAG_REFERENCES_ALL_COLUMNS pour confirmer les affectations de balises sur les colonnes de la table :
SELECT * FROM TABLE( hr.INFORMATION_SCHEMA.TAG_REFERENCES_ALL_COLUMNS( 'hr.tables.empl_info', 'table' ));
Copy
Ensuite, vous pouvez interroger la vue Account Usage DATA_CLASSIFICATION_LATEST pour voir le dernier résultat de la classification de la table.

Répétez ces étapes pour chaque table à classer.

Utilisation de SQL pour classer de manière asynchrone les tables d’un schéma¶

Cette approche utilise SQL pour classer de manière asynchrone toutes les tables d’un schéma et définir des balises système sur les colonnes de chaque table. Pour appliquer cette procédure, vous devez effectuer les opérations suivantes :

Cette procédure suppose que vous utilisiez un rôle titulaire des droits appropriés.
Sélectionnez un schéma contenant moins de 1 000 objets de table. Vous pouvez utiliser une commande SHOW TABLES IN SCHEMA pour déterminer le nombre d’objets de table dans le schéma.

Procédez comme suit pour utiliser SQL afin de classer toutes les tables d’un schéma et définir des balises système sur chaque colonne de chaque table :

Identifiez un schéma contenant des tables à classer.
Appelez la procédure stockée SYSTEM$CLASSIFY_SCHEMA pour planifier la classification des tables du schéma :
CALL SYSTEM$CLASSIFY_SCHEMA('hr.tables', {'auto_tag': true});
Copy
Veillez à ne pas classer trop de schémas simultanément. Pour plus d’informations, consultez les notes sur l’utilisation.
Pour afficher les résultats, appelez la fonction SYSTEM$GET_CLASSIFICATION_RESULT sur chaque table du schéma :
SELECT SYSTEM$GET_CLASSIFICATION_RESULT('hr.tables.empl_info');
Copy
Appelez la fonction de table Information Schema TAG_REFERENCES_ALL_COLUMNS pour confirmer les affectations de balises sur les colonnes de la table :
SELECT * FROM TABLE( hr.INFORMATION_SCHEMA.TAG_REFERENCES_ALL_COLUMNS( 'hr.tables.empl_info', 'table' ));
Copy
Ensuite, vous pouvez interroger la vue Account Usage DATA_CLASSIFICATION_LATEST pour voir le dernier résultat de la classification de la table.

Répétez ces étapes pour chaque schéma contenant des tables à classer.

Astuce

Si vous souhaitez annuler la classification des tables dans un schéma, appelez la procédure stockée SYSTEM$CANCEL_CLASSIFY_SCHEMA.

Utilisation de Snowsight pour classer les tables d’un schéma¶

Cette approche utilise Snowsight pour mettre en zone de préparation la classification des tables d’un schéma et pour baliser automatiquement les colonnes de chaque table du schéma. La procédure suppose que vous utilisiez un rôle titulaire des droits appropriés.

Pour classer toutes les tables d’un schéma et définir des balises système sur chaque colonne de chaque table contenue dans le schéma, procédez comme suit dans Snowsight :

Déclenchez la classification et le balisage des tables du schéma :
1. Dans Snowsight, utilisez l’explorateur d’objets pour accéder au schéma que vous avez sélectionné.
2. Sélectionnez le menu More (…), puis sélectionnez Classify and Tag Sensitive Data.
3. Sélectionnez un entrepôt si aucun entrepôt n’est déjà utilisé.
4. Sélectionnez les tables que vous souhaitez classer. Par défaut, les tables ne sont pas sélectionnées.
5. Évaluez les Advanced Options et sélectionnez-les selon vos besoins :
  - L’option Auto-tagging data vous permet d’attribuer automatiquement des balises aux colonnes après avoir classé les données. Cette option est activée par défaut et vous pouvez la désactiver si nécessaire.
  - L’option Include custom classifiers vous permet d’utiliser les classificateurs personnalisés auxquels vous pouvez accéder pour classer les données.
    
    Pour déterminer les classificateurs personnalisés auxquels vous pouvez accéder, sélectionnez View custom classifiers et exécutez la commande dans la feuille de calcul.
Sélectionnez Classify and Tag Sensitive Data.

Vous pouvez sélectionner cette option pour reclasser une table qui a été classée précédemment.

Snowsight classe jusqu’à 1 000 tables.

Vous pouvez également ouvrir une Worksheet et appeler SYSTEM$CLASSIFY_SCHEMA comme indiqué dans Utilisation de SQL pour classer de manière asynchrone les tables d’un schéma. Si vous sélectionnez cette option, revenez au schéma dans l’explorateur d’objets après avoir appelé cette procédure stockée. Soyez attentif au nombre de fois que vous appelez cette procédure stockée dans une période de temps relativement courte. Pour plus d’informations, consultez les notes sur l’utilisation.
Attendez la fin du processus de classification. Une fois l’opération terminée, une coche verte apparaît dans la colonne CLASSIFICATION.
Sélectionnez View Results.
Modifiez la valeur de la balise selon vos besoins. Pour ce faire, utilisez un rôle disposant des PRIVILEGES IMPORTED dans la base de données SNOWFLAKE.
Suivez les invites pour examiner et approuver les tables du schéma. Mettez à jour les valeurs de balises selon vos besoins.
Sélectionnez Complete classification.
L’onglet Tables affiche Classification results reviewed and applied. Vous pouvez confirmer les affectations de balises en procédant comme suit :
1. Sélectionnez la table.
2. Accédez à l’onglet Columns.
3. Examinez la colonne TAGS.
Sinon, vous pouvez procéder comme suit :
1. Utilisez une feuille de calcul pour appeler la fonction de table Information Schema TAG_REFERENCES_ALL_COLUMNS afin d’afficher les affectations de balises d’une colonne d’une table spécifique. Pour les autres options, voir Balises du système de suivi.
2. Examinez les enregistrements de la vue Account Usage DATA_CLASSIFICATION_LATEST en accédant à la vue à l’aide de l’explorateur d’objets ou en interrogeant la vue dans une feuille de calcul.
Répétez ces étapes pour les autres schémas contenant des tables à classer.