Classification des données personnalisée¶
Ce chapitre fournit des concepts sur la classification des données personnalisée dans Snowflake.
Vue d’ensemble¶
Snowflake fournit la classe CUSTOM_CLASSIFIER dans le schéma SNOWFLAKE.DATA_PRIVACY pour permettre aux ingénieurs des données d’étendre leurs capacités de classification des données en fonction de leur propre connaissance de leurs données. Après avoir créé une instance de la classe, vous pouvez appeler une méthode sur l’instance pour définir votre propre catégorie sémantique, déterminer la catégorie de confidentialité et spécifier des expressions régulières correspondant à des schémas de valeur de colonne tout en coïncidant éventuellement avec le nom de colonne.
En créant et en utilisant des instances de classification personnalisée, vous pouvez :
Accélérer vos efforts de classification des données.
Définir des balises spécifiques à l’industrie et au domaine pour les colonnes contenant des données sensibles.
Tirer parti de Snowflake pour mieux contrôler vos efforts de suivi des données PII.
Considérations¶
Choisissez un entrepôt qui correspond à la taille des données que vous classez. Pour plus d’informations, voir Coûts de calcul.
À propos de l’algorithme de classification personnalisée¶
Snowflake utilise un algorithme unique pour la classification personnalisée par rapport à l’algorithme de la Classification des données. S’il existe différents algorithmes de classification, c’est pour garantir des résultats stables en fonction de la manière dont vous choisissez de classer vos données.
L’algorithme de classification personnalisée utilise une règle de notation pour déterminer quelle balise système de catégorie sémantique recommander et quelles balises de catégorie sémantique, le cas échéant, suggérer comme alternatives. La logique de notation évalue les expressions régulières que vous ajoutez à votre instance, que vous spécifiez en appelant la méthode custom_classifier !ADD_REGEX sur votre instance.
La règle de notation utilise une valeur seuil par défaut de 0.8
qui équivaut à un niveau de confiance élevé en ce qui concerne la balise recommandée. Quatre-vingt pour cent des données de l’échantillon doivent correspondre aux expressions régulières que vous ajoutez à l’instance. L’algorithme compare le score d’une colonne à la valeur seuil et recommande une balise figurant parmi les balises suivantes :
Balise de classificateur personnalisé.
Vous pouvez spécifier la valeur seuil pour une instance de classification personnalisée en appelant la méthode custom_classifier !ADD_REGEX sur l’instance.
Note
Il est possible que deux classificateurs personnalisés aient le même score. Dans ce cas, une égalité est résolue en évaluant les éléments suivants :
Pourcentage de correspondance entre les catégories personnalisées respectives.
Ordre alphabétique entre les noms des catégories personnalisées.
Dans ce cas, la catégorie gagnante sera la catégorie recommandée et le reste sera contenu dans les alternatives.
Le tableau suivant résume l’algorithme de notation et la balise recommandée :
Correspondance de noms fournie |
La valeur correspond à >= seuil |
Le nom correspond |
Recommandation |
---|---|---|---|
Vrai |
Vrai |
Vrai |
Catégorie personnalisée |
Faux |
Vrai |
Catégorie Snowflake |
|
Vrai |
Faux |
Catégorie Snowflake |
|
Faux |
Faux |
Catégorie Snowflake |
|
Faux |
Vrai |
Non applicable |
Catégorie personnalisée |
Faux |
Non applicable |
Catégorie Snowflake |
Réplication et clonage¶
Les instances de la classe CUSTOM_CLASSIFIER sont répliquées lorsque vous répliquez une base de données.
Les instances de la classe CUSTOM_CLASSIFIER sont clonées lorsque vous clonez le schéma qui contient les instances.