Introduction à la classification

La classification est un processus qui analyse et catégorise les informations stockées dans les colonnes des tables et des vues de la base de données.

Une fois le processus terminé, la classification utilise des balises d’objet pour marquer les données, qui peuvent ensuite être utilisées pour faciliter l’analyse et le respect des réglementations en matière de confidentialité.

Dans ce chapitre :

Qu’est-ce que la classification ?

La classification permet de répondre à des questions sur les données stockées dans les tables et les vues, telles que :

  • La table/vue contient-elle des PII (informations d’identification personnelle) ou des données sensibles ?

  • Où les données sont-elles stockées et depuis combien de temps le sont-elles ?

  • Comment protéger les données contre l’exposition tout en continuant à en tirer des informations ?

Le processus de classification échantillonne toutes les colonnes prises en charge dans une table ou une vue et utilise les noms et les valeurs des colonnes pour classifier les données dans les catégories système fournies par Snowflake. Les catégories peuvent être attribuées aux colonnes sous forme de balises, qui peuvent être définies manuellement ou à l’aide de la procédure stockée fournie.

Cas d’utilisation de la classification

Une fois que les balises produites par la classification ont été attribuées à une table, une vue ou une colonne, elles peuvent être utilisées pour permettre une variété de cas d’utilisation en matière de gouvernance, de partage et de confidentialité des données, notamment :

Classification PII

Vous pouvez utiliser la classification pour identifier des PII (informations d’identification personnelle) dans vos données afin de réduire les risques et de respecter la conformité.

Accès aux données

Vous pouvez utiliser les balises de classification pour configurer les contrôles de sécurité afin d’empêcher tout accès non autorisé à des données personnelles.

Gestion des politiques

Vous pouvez utiliser des balises de classification pour déterminer comment définir des politiques de masquage dans le but de protéger la confidentialité des données.

Anonymisation

Vous pouvez utiliser la classification pour rationaliser l’anonymisation des données personnelles. L’anonymisation s’appuie sur les catégories de confidentialité de la classification pour protéger l’identité des sujets associés tout en rendant leurs données disponibles pour analyse.

Objets et types de données de colonne pris en charge

Snowflake prend en charge la classification des données stockées dans tous les types de tables et de vues, notamment :

  • Tables externes

  • Vues matérialisées

  • Vues sécurisées

Vous pouvez classer les colonnes des tables et des vues pour tous les types de données pris en charge , à l’exception des types de données suivants :

  • GEOGRAPHY

  • BINARY

  • VARIANT

    Notez que vous pouvez classer une colonne avec le type de données VARIANT lorsque le type de données de la colonne peut être converti vers un type de données NUMBER ou STRING. Snowflake ne classe pas la colonne si celle-ci contient JSON, XML ou d’autres données semi-structurées.

Si une table ou vue contient des colonnes dont le type de données n’est pas pris en charge ou si la colonne contient toutes les valeurs NULL, le processus de classification ignore les colonnes et ne les inclut pas dans la sortie.

Important

Si vos données représentent des valeurs NULL avec une valeur autre que NULL, la précision des résultats de la classification peut être affectée.

Coûts de calcul

Le processus de classification requiert des ressources de calcul, qui sont fournies par l’entrepôt virtuel qui est utilisé et en fonctionnement au moment de la classification.

Le temps nécessaire pour classifier les données d’une table/vue (et, par conséquent, le nombre de crédits consommés par l’entrepôt) est fonction de la quantité de données à classifier.

En particulier, si une table/vue comporte un grand nombre de colonnes qui prennent en charge la classification, le temps de traitement peut en être affecté. Toutefois, en règle générale, la vitesse de traitement évolue de façon linéaire avec la taille de l’entrepôt. En d’autres termes, chaque augmentation de la taille d’un entrepôt (par exemple, de X-small à Small) réduit généralement le temps de traitement de moitié.

Utilisez les directives générales suivantes pour sélectionner une taille d’entrepôt :

  • Le temps de traitement n’est pas un problème : entrepôt X-Small.

  • Jusqu’à 100 colonnes dans une table : entrepôt Small.

  • 101 à 300 colonnes dans une table : entrepôt Medium.

  • 301 colonnes ou plus dans une table : entrepôt Large.

Catégories de classification

Snowflake utilise deux types de catégories pour classifier les données dans les colonnes des tables et des vues :

  • Catégories sémantiques

  • Catégories de confidentialité

Catégories sémantiques

Une catégorie sémantique identifie une colonne comme stockant des attributs personnels. Parmi les catégories sémantiques prises en charge par Snowflake figurent les suivantes :

  • Nom

  • Adresse

  • Code postal

  • Numéro de téléphone (uniquement les numéros US actuellement)

  • Âge

  • Sexe

For a complete list of the semantic categories supported in the current release, see Valeurs et mappages des balises de catégorie. Additional semantic categories will be added in future releases.

Catégories de confidentialité

Si une colonne est déterminée comme ayant une catégorie sémantique, la colonne est en outre classifiée selon l’une des catégories de confidentialité suivantes :

Identificateur

Également appelés identificateurs directs, ces attributs permettent d’identifier de manière unique un individu (par exemple, le nom, le numéro de sécurité sociale ou le numéro de téléphone).

Quasi-identificateur

Également appelés identificateurs indirects, ces attributs, lorsqu’ils sont combinés à d’autres attributs, peuvent être utilisés pour identifier de manière unique un individu (par exemple, âge, sexe, code postal).

Sensible

Les attributs personnels qui ne sont pas identifiables, mais qui constituent des informations que les personnes ne souhaitent pas voir divulguées pour des raisons de confidentialité (par exemple, le salaire ou tout ce qui est lié à la santé).

Note

Plusieurs catégories sémantiques des trois catégories de confidentialité peuvent être considérées comme des « données personnelles sensibles », des « catégories spéciales de données » ou des termes similaires en vertu des lois et des règlements. De plus, elles peuvent nécessiter des protections ou des contrôles supplémentaires.

Actuellement, la classification ne permet pas de marquer les données comme étant à la fois sensibles et identifiantes. En d’autres termes, la classification est une opération où il n’y a que deux choix possibles, dont vous devez tenir compte lorsque vous créez des règles pour régir l’accès à des données identifiées comme sensibles.

Probabilités et alternatives des catégories sémantiques

Outre l’identification de la catégorie sémantique et de la catégorie de confidentialité pour une colonne, Snowflake renvoie également les informations suivantes sur la catégorie sémantique de la colonne :

  • La probabilité que le processus de classification ait dérivé la catégorie sémantique correcte.

  • Une liste de catégories sémantiques alternatives avec lesquelles la colonne peut être marquée (si la probabilité est inférieure au seuil 0.80 et si le processus a identifié d’autres catégories sémantiques possibles avec une probabilité supérieure à 0.15).

Pour plus de détails, voir la fonction EXTRACT_SEMANTIC_CATEGORIES.

Balises système

La classification utilise un système prédéfini de balises pour les catégories sémantique et de confidentialité :

  • For the SEMANTIC_CATEGORY tag, the possible tag values are the semantic categories (NAME, AGE, etc.). For the complete list of possible semantic category values, see Valeurs et mappages des balises de catégorie.

  • Pour la balise PRIVACY_CATEGORY , les valeurs possibles sont les catégories de confidentialité (IDENTIFIER, QUASI_IDENTIFIER, ou SENSITIVE).

Les balises système sont stockées dans le schéma CORE de la base de données partagée en lecture seule SNOWFLAKE. Pour voir les noms des balises, utilisez la commande SHOW TAGS.

Par exemple :

USE SCHEMA SNOWFLAKE.CORE;

SHOW TAGS;

Pour visualiser les valeurs attribuées aux balises système après l’extraction des balises, voir Visualisation des données de classification et assurance de leur suivi.

Revenir au début