Erstellen kundenspezifischer Kategorien für sensible Daten¶
Wenn es keine native semantische Kategorie gibt, die Ihre domänenspezifischen sensiblen Daten erkennt, können Sie eine kundenspezifische Kategorie für Ihre sensiblen Daten erstellen.
Implementieren Sie kundenspezifische semantische Kategorien, indem Sie einen kundenspezifischen Klassifikator definieren. Ein kundenspezifischer Klassifikator hat die folgenden Attribute:
Kundenspezifische semantische Kategorien, die Datentypen identifizieren, beispielsweise
medical_codeundemployee_id.Reguläre Ausdrücke, die vom Snowflake-Algorithmus verwendet werden, um Ihre sensiblen Daten zu erkennen.
Eine der vordefinierten Datenschutzkategorien.
Wie es funktioniert¶
Snowflake provides the CUSTOM_CLASSIFIER class in the SNOWFLAKE.DATA_PRIVACY schema to enable data engineers to extend their data classification capabilities based on their own knowledge of their data. After you create an instance of the class, you can call a method on the instance to define your custom semantic category, specify the privacy category, and specify regular expressions to match column value patterns while optionally matching the column name.
Wichtig
Bei der Klassifizierung sensibler Daten wird die Definition eines kundenspezifischen Klassifikators gespeichert, keine Referenz. Wenn Sie den kundenspezifischen Klassifikator ändern, müssen Sie die Methode SET_CUSTOM_CLASSIFIERS verwenden, um das Klassifizierungsprofil mit der neuen Definition zu aktualisieren.
Ein Beispiel für die Verwendung der CUSTOM_CLASSIFIER-Klasse zum Erstellen und Verwenden eines kundenspezifischen Klassifikators finden Sie unter Beispiel.
Hinweise¶
Choose a warehouse that matches the size of the data you are classifying:
Bearbeitungszeit spielt keine Rolle: sehr kleines Warehouse (X-Small).
Bis zu 100 Spalten in einer Tabelle: kleines Warehouse (Small).
101 bis 300 Spalten in einer Tabelle: mittelgroßes Warehouse (Medium).
Mehr als 300 in einer Tabelle: großes Warehouse.
Threshold for custom categories¶
Der Algorithmus, der zur Klassifizierung kundenspezifischer Kategorien verwendet wird, verwendet eine Bewertungsregel, um den regulären Ausdruck Ihres kundenspezifischen Klassifikators auszuwerten und zu bestimmen, welche semantische Kategorie empfohlen werden sollte.
The scoring rule uses a default threshold value of 0.8, which equates to high confidence in terms of what the recommended category should be. Eighty percent of the data in the sample must match the regular expressions that you add to the instance. The algorithm compares the score for a column against the threshold value and recommends a category that corresponds to one of the following:
Nicht internationales System-Tag
Internationales System-Tag
Custom classifier tag
Sie können den Schwellenwert für eine benutzerdefinierte Klassifizierung angeben, indem Sie die Methode custom_classifier !ADD_REGEX für die Instanz aufrufen.
Bemerkung
Es ist möglich, dass zwei benutzerdefinierte Klassifikatoren die gleiche Punktzahl haben. In diesem Fall wird ein Gleichstand durch die Bewertung der folgenden Punkte gelöst:
Prozentuale Übereinstimmung zwischen den jeweiligen benutzerdefinierten Kategorien
Alphabetische Reihenfolge zwischen den Namen der benutzerdefinierten Kategorien
In einem solchen Fall ist die Gewinnerkategorie die empfohlene Kategorie und der Rest ist in den alternativen Kategorien enthalten.
Die folgende Tabelle gibt einen Überblick über den Bewertungsalgorithmus und das jeweils empfohlene Tag:
Namensabgleicher bereitgestellt |
Wert stimmt überein >= Schwellenwert |
Name stimmt überein |
Empfehlung |
|---|---|---|---|
True |
True |
True |
Kundenspezifische Kategorie |
False |
True |
Snowflake-Kategorie |
|
True |
False |
Snowflake-Kategorie |
|
False |
False |
Snowflake-Kategorie |
|
False |
True |
Nicht anwendbar |
Kundenspezifische Kategorie |
False |
Nicht anwendbar |
Snowflake-Kategorie |
Replikation und Klonen¶
Instanzen der Klasse CUSTOM_CLASSIFIER werden repliziert, wenn Sie eine Datenbank replizieren.
Instanzen der Klasse CUSTOM_CLASSIFIER werden geklont, wenn Sie das Schema klonen, das die Instanzen enthält.