Créer des catégories personnalisées pour les données sensibles

S’il n’y a pas de catégorie sémantique native qui détecte les données sensibles spécifiques à votre domaine, vous pouvez créer une catégorie personnalisée pour vos données sensibles.

Mettez en œuvre des catégories sémantiques personnalisées en définissant un classificateur personnalisé. Un classificateur personnalisé possède les attributs suivants :

  • Catégories sémantiques personnalisées qui identifient les types de données ; par exemple, medical_code et employee_id.

  • Expressions régulières utilisées par l’algorithme de Snowflake pour détecter vos données sensibles.

  • L’une des catégories de confidentialité prédéfinies.

Fonctionnement

Snowflake provides the CUSTOM_CLASSIFIER class in the SNOWFLAKE.DATA_PRIVACY schema to enable data engineers to extend their data classification capabilities based on their own knowledge of their data. After you create an instance of the class, you can call a method on the instance to define your custom semantic category, specify the privacy category, and specify regular expressions to match column value patterns while optionally matching the column name.

Important

La classification des données sensibles stocke la définition d’un classificateur personnalisé, et non une référence. Si vous modifiez le classificateur personnalisé, vous devez utiliser la méthode SET_CUSTOM_CLASSIFIERS pour mettre à jour le profil de classification avec la nouvelle définition.

Pour un exemple d’utilisation de la classe CUSTOM_CLASSIFIER pour créer et utiliser un classificateur personnalisé, voir Exemple.

Considérations

Choose a warehouse that matches the size of the data you are classifying:

  • Le temps de traitement n’est pas un problème : entrepôt X-Small.

  • Jusqu’à 100 colonnes dans une table : entrepôt Small.

  • 101 à 300 colonnes dans une table : entrepôt Medium.

  • Plus de 300 dans une table : grand entrepôt.

Threshold for custom categories

L’algorithme utilisé pour classifier les catégories personnalisées utilise une règle de notation pour évaluer l’expression régulière de votre classificateur personnalisé afin de déterminer la catégorie sémantique à recommander.

The scoring rule uses a default threshold value of 0.8, which equates to high confidence in terms of what the recommended category should be. Eighty percent of the data in the sample must match the regular expressions that you add to the instance. The algorithm compares the score for a column against the threshold value and recommends a category that corresponds to one of the following:

  • Balise système non internationale

  • Balise système internationale

  • Custom classifier tag

Vous pouvez spécifier la valeur seuil pour une instance de classification personnalisée en appelant la méthode custom_classifier !ADD_REGEX sur l’instance.

Note

Il est possible que deux classificateurs personnalisés aient le même score. Dans ce cas, une égalité est résolue en évaluant les éléments suivants :

  • Pourcentage de correspondance entre les catégories personnalisées respectives.

  • Ordre alphabétique entre les noms des catégories personnalisées.

Dans ce cas, la catégorie gagnante sera la catégorie recommandée et le reste sera contenu dans les alternatives.

Le tableau suivant résume l’algorithme de notation et la balise recommandée :

Correspondance de noms fournie

La valeur correspond à >= seuil

Le nom correspond

Recommandation

Vrai

Vrai

Vrai

Catégorie personnalisée

Faux

Vrai

Catégorie Snowflake

Vrai

Faux

Catégorie Snowflake

Faux

Faux

Catégorie Snowflake

Faux

Vrai

Non applicable

Catégorie personnalisée

Faux

Non applicable

Catégorie Snowflake

Réplication et clonage

  • Les instances de la classe CUSTOM_CLASSIFIER sont répliquées lorsque vous répliquez une base de données.

  • Les instances de la classe CUSTOM_CLASSIFIER sont clonées lorsque vous clonez le schéma qui contient les instances.