Introduction à la classification des données sensibles¶

Il est essentiel de savoir où résident vos données sensibles et si elles sont correctement protégées. Il ne s’agit pas simplement d’une meilleure pratique. Dans de nombreux secteurs, il s’agit d’une exigence vitale pour maintenir la conformité aux réglementations. Snowflake fournit une solution qui découvre automatiquement les données sensibles et facilite l’application des contrôles de gouvernance tels que les balises et les politiques de masquage.

Snowflake classe les données sensibles en catégories natives comme le nom et l’identificateur régional, mais vous pouvez aussi créer votre propre catégories personnalisées pour détecter les données sensibles spécifiques à votre organisation ou domaine.

Prise en main¶

Snowflake fournit une interface Web pour configurer la classification des données sensibles et pour afficher la posture de gouvernance des données sensibles.

Pour commencer, effectuez l’une des opérations suivantes :

Pour paramétrer la classification des données sensibles, voir Utiliser le Centre de confiance pour définir la classification des données sensibles.
Pour voir les résultats de la classification des données sensibles, consultez Utiliser le Centre de confiance pour afficher les résultats de la classification.

Concepts de base de la classification des données sensibles¶

À propos des catégories de classification¶

Avec la classification des données sensibles, chaque colonne identifiée comme contenant des données sensibles se voit attribuer deux catégories : une catégorie sémantique et une catégorie de confidentialité.

Une catégorie sémantique identifie le type des attributs personnels. Snowflake fournit des catégories natives pour des attributs communs tels que des noms et des adresses. Si vos données sensibles n’entrent pas dans une catégorie native, vous pouvez créer une catégorie personnalisée pour elle.
A privacy category identifies the sensitivity of a personal attribute. It can be either IDENTIFIER, QUASI_IDENTIFIER, or SENSITIVE (a generic, non-identifier category for things such as medical/health data or salary).

À propos des balises de classification¶

Une balise est un objet Snowflake qui peut être affecté à une colonne. Snowflake utilise les balises suivantes définies par le système pour identifier les colonnes qu’il a classées comme contenant des données sensibles.

SNOWFLAKE.CORE.SEMANTIC_CATEGORY: Balise utilisée pour identifier la catégorie native ou personnalisée des données d’une colonne.
SNOWFLAKE.CORE.PRIVACY_CATEGORY: Balise utilisée pour identifier la catégorie de confidentialité des données d’une colonne.

Vous pouvez mapper des balises définies par l’utilisateur à des balises de classification définies par le système. Par exemple, vous pouvez configurer un mappage de balises de sorte que chaque fois que la balise système SNOWFLAKE.CORE.SEMANTIC_CATEGORY = 'NAME' est appliquée à une colonne, la balise définie par l’utilisateur tag_db.sch.pii = 'Highly confidential' est également appliquée.

À propos des profils de classification¶

Lorsque vous utilisez l’interface Web du Centre de confiance pour spécifier des paramètres de classification, ces paramètres sont enregistrés sous forme de profil de classification. Ce profil de classification peut être modifié ultérieurement pour modifier les paramètres qui contrôlent la manière dont les données sont classées. Dans l’interface Web, le profil de classification contrôle également les bases de données classées avec les paramètres du profil.

Vous pouvez également utiliser des commandes SQL pour créer et modifier un profil de classification. Si vous utilisez SQL, l’association du profil de classification à une base de données pour démarrer le processus de classification est une étape distincte.

Protection des données sensibles¶

Snowflake fournit les outils de gouvernance dont vous avez besoin pour suivre et protéger vos données sensibles.

Vous pouvez configurer le processus de classification afin que Snowflake attribue automatiquement les systèmes et les balises définies par l’utilisateur aux données qu’il classe comme sensibles. Vous pouvez ensuite suivre les données de votre domaine de données en suivant les balises.
Vous pouvez attribuer une politique de masquage aux colonnes contenant des données sensibles pour masquer sélectivement les données au moment de la requête.
Vous pouvez combiner des politiques de balisage et de masquage pour masquer automatiquement les données classées comme sensibles. Si vous utilisez le masquage basé sur les balises pour associer une politique de masquage à une balise définie par l’utilisateur, les données seront automatiquement masquées lorsque Snowflake applique la balise dans le cadre du processus de classification. Lorsque de nouvelles données sont ajoutées à une base de données, les politiques de masquage basées sur des balises sont automatiquement affectées aux colonnes qui contiennent des données sensibles.

Déterminer les bases de données classées¶

Vous pouvez déterminer quelles données sont contrôlées pour la classification des données sensibles en répertoriant les bases de données associées à un profil de classification. Si une base de données est associée à un profil de classification, toutes les tables et vues de cette base de données sont automatiquement classées selon les critères définis dans le profil.

Pour déterminer quelles bases de données sont classées :

Connectez-vous à l”Snowsight en tant qu’utilisateur ayant les privilèges requis.
Dans le menu de navigation, sélectionnez Governance & security » Trust Center.
Sélectionnez l’onglet Data Security.
Sélectionnez l’onglet Dashboard.
Trouvez la vignette Databases monitored by classification. Pour répertorier les bases de données en cours de classification, sélectionnez Monitored ou Partially monitored.

Note

Une base de données est partiellement surveillée si un utilisateur a utilisé SQL pour définir un profil de classification directement sur un schéma dans la base de données plutôt que de définir le profil au niveau de la base de données.

Utilisez la fonction SYSTEM$SHOW_SENSITIVE_DATA_MONITORED_ENTITIES pour répertorier les bases de données associées à un profil de classification.

SELECT SYSTEM$SHOW_SENSITIVE_DATA_MONITORED_ENTITIES('DATABASE');

Considérations relatives aux clients¶

La classification des données sensibles consomme des crédits, car elle utilise des ressources de calcul sans serveur pour classifier les tables de la base de données. Pour plus d’informations sur le tarif de cette consommation, voir la table 5 dans Snowflake Service Consumption Table.

Note

La classification des vues peut coûter plus que la classification des tables. Le coût supplémentaire dépend de la complexité de la requête qui a créé la vue. Les vues matérialisées n’entraînent pas ces coûts supplémentaires. Par défaut, les vues sont exclues de la classification.

Afficher les coûts dans Snowsight¶

Pour explorer le coût de la classification des données sensibles :

Connectez-vous à Snowsight.
Passez à un rôle avec accès aux données de coût et d’utilisation.
Dans le menu de navigation, sélectionnez Admin » Cost management.
Sélectionnez un entrepôt à utiliser pour visualiser les données d’utilisation. Snowflake recommande d’utiliser un entrepôt XS à cette fin.
Sélectionnez Consumption.
Dans la liste déroulante Usage Type sélectionnez Compute.
Dans la liste déroulante Service Type sélectionnez Sensitive Data Classification.

Utiliser SQL pour interroger les coûts¶

Vous pouvez interroger les vues des schémas ACCOUNT_USAGE et ORGANIZATION_USAGE pour déterminer le montant consacré à la classification automatique des données sensibles. Pour suivre la consommation des crédits, interrogez les vues suivantes :

Vue METERING_HISTORY (ACCOUNT_USAGE)

Vous permet de récupérer le coût horaire de la classification automatique en vous concentrant sur SENSITIVE_DATA_CLASSIFICATION dans la colonne SERVICE_TYPE. Par exemple :

SELECT
  service_type,
  start_time,
  end_time,
  entity_id,
  name,
  credits_used_compute,
  credits_used_cloud_services,
  credits_used,
  budget_id
  FROM SNOWFLAKE.ACCOUNT_USAGE.METERING_HISTORY
  WHERE service_type = 'SENSITIVE_DATA_CLASSIFICATION';

Vue METERING_DAILY_HISTORY (ACCOUNT_USAGE et ORGANIZATION_USAGE)

Vous permet de récupérer le coût journalier de la classification automatique en vous concentrant sur SENSITIVE_DATA_CLASSIFICATION dans la colonne SERVICE_TYPE. Par exemple :

SELECT
  service_type,
  usage_date,
  credits_used_compute,
  credits_used_cloud_services,
  credits_used
  FROM SNOWFLAKE.ACCOUNT_USAGE.METERING_DAILY_HISTORY
  WHERE service_type = 'SENSITIVE_DATA_CLASSIFICATION';

USAGE_IN_CURRENCY_DAILY (ORGANIZATION_USAGE)

Vous permet de récupérer le coût journalier de la classification automatique en vous concentrant sur SENSITIVE_DATA_CLASSIFICATION dans la colonne SERVICE_TYPE. Utilisez cette vue pour déterminer le coût en devises et non en crédits.

Objets pris en charge¶

Snowflake prend en charge la classification des données stockées dans les types de tables et de vues suivants :

Tables :

Vues :

Note

Bien que les vues puissent être classées, la classification d’une vue peut coûter beaucoup plus cher que la classification directe des tables sous-jacentes, en raison de la complexité de la requête qui a créé la vue. Pour plus d’informations, voir Considérations relatives aux clients.

Notez que Snowflake ne prend pas en charge la classification sur les tables partagées et les schémas partagés du côté du consommateur. Si une table est créée par le fournisseur et placée dans le partage sortant du fournisseur, la classification ne fonctionnera que si elle est appelée du côté du fournisseur.

Types de données pris en charge¶

Vous pouvez classer les colonnes des tables et des vues pour tous les types de données pris en charge , à l’exception des types de données suivants :

BINARY
DECFLOAT
GEOGRAPHY
UUID
VECTOR

Note

Les données non structurées telles que le texte long stocké dans les colonnes ne sont pas prises en charge.
Les données JSON sont les seules données semi-structurées prises en charge.

Limites et considérations¶

Les profils de classification ne peuvent pas être définis sur un compte de lecteur.
Un profil de classification ne peut pas être configuré sur plus de 1 000 bases de données.
Un profil de classification ne peut pas être configuré directement sur plus de 10 000 schémas.
Un maximum de 100 millions de tables peuvent être classées dans un schéma.
Vous ne pouvez pas classer automatiquement une table si elle présente l’une des caractéristiques suivantes :
- Plus de 10 000 colonnes.
- Une colonne dont le nom comporte plus de 255 caractères.
- Une colonne dont le nom comprend le caractère $.