Créer des catégories personnalisées pour les données sensibles

S’il n’y a pas de catégorie sémantique native qui détecte les données sensibles spécifiques à votre domaine, vous pouvez créer une catégorie personnalisée pour vos données sensibles.

Mettez en œuvre des catégories sémantiques personnalisées en définissant un classificateur personnalisé. Un classificateur personnalisé possède les attributs suivants :

  • Catégories sémantiques personnalisées qui identifient les types de données ; par exemple, medical_code et employee_id.

  • Expressions régulières utilisées par l’algorithme de Snowflake pour détecter vos données sensibles.

  • L’une des catégories de confidentialité prédéfinies.

Fonctionnement

Snowflake fournit la CUSTOM_CLASSIFIERclasse :doc:`</sql-reference/classes/custom_classifier> ` dans le schéma SNOWFLAKE.DATA_PRIVACY pour permettre aux ingénieurs des données d’étendre leurs capacités de classification des données en fonction de leur propre connaissance de leurs données. Après avoir créé une instance de la classe, vous pouvez appeler une méthode sur l’instance pour définir votre catégorie sémantique personnalisée, déterminer la catégorie de confidentialité et spécifier des expressions régulières correspondant à des modèles de valeur de colonne tout en coïncidant éventuellement avec le nom de colonne.

Important

La classification des données sensibles stocke la définition d’un classificateur personnalisé, et non une référence. Si vous modifiez le classificateur personnalisé, vous devez utiliser la méthode SET_CUSTOM_CLASSIFIERS pour mettre à jour le profil de classification avec la nouvelle définition.

Pour un exemple d’utilisation de la classe CUSTOM_CLASSIFIER pour créer et utiliser un classificateur personnalisé, voir Exemple.

Considérations

Choisissez un entrepôt qui correspond à la taille des données que vous classifiez.

  • Le temps de traitement n’est pas un problème : entrepôt X-Small.

  • Jusqu’à 100 colonnes dans une table : entrepôt Small.

  • 101 à 300 colonnes dans une table : entrepôt Medium.

  • Plus de 300 dans une table : grand entrepôt.

Seuil pour les catégories personnalisées

L’algorithme utilisé pour classifier les catégories personnalisées utilise une règle de notation pour évaluer l’expression régulière de votre classificateur personnalisé afin de déterminer la catégorie sémantique à recommander.

La règle de notation utilise une valeur seuil par défaut de 0,8 qui équivaut à un niveau de confiance élevé en ce qui concerne la balise recommandée. Quatre-vingt pour cent des données de l’échantillon doivent correspondre aux expressions régulières que vous ajoutez à l’instance. L’algorithme compare le score d’une colonne à la valeur seuil et recommande une catégorie figurant parmi les balises suivantes :

  • Balise système non internationale

  • Balise système internationale

  • Balise de classificateur personnalisé

Vous pouvez spécifier la valeur seuil pour une instance de classification personnalisée en appelant la méthode custom_classifier !ADD_REGEX sur l’instance.

Note

Il est possible que deux classificateurs personnalisés aient le même score. Dans ce cas, une égalité est résolue en évaluant les éléments suivants :

  • Pourcentage de correspondance entre les catégories personnalisées respectives.

  • Ordre alphabétique entre les noms des catégories personnalisées.

Dans ce cas, la catégorie gagnante sera la catégorie recommandée et le reste sera contenu dans les alternatives.

Le tableau suivant résume l’algorithme de notation et la balise recommandée :

Correspondance de noms fournie

La valeur correspond à >= seuil

Le nom correspond

Recommandation

Vrai

Vrai

Vrai

Catégorie personnalisée

Faux

Vrai

Catégorie Snowflake

Vrai

Faux

Catégorie Snowflake

Faux

Faux

Catégorie Snowflake

Faux

Vrai

Non applicable

Catégorie personnalisée

Faux

Non applicable

Catégorie Snowflake

Réplication et clonage

  • Les instances de la classe CUSTOM_CLASSIFIER sont répliquées lorsque vous répliquez une base de données.

  • Les instances de la classe CUSTOM_CLASSIFIER sont clonées lorsque vous clonez le schéma qui contient les instances.