Kundenspezifische Datenklassifizierung¶
Unter diesem Thema werden Konzepte zur kundenspezifischen Datenklassifizierung in Snowflake vorgestellt.
Übersicht¶
Snowflake stellt die Klasse CUSTOM_CLASSIFIER im SNOWFLAKE.DATA_PRIVACY-Schema bereit, damit Data Engineers ihre Möglichkeiten zur Datenklassifizierung auf der Grundlage ihres eigenen Wissens über ihre Daten erweitern können. Nachdem Sie eine Instanz der Klasse erstellt haben, können Sie auf der Instanz Methoden aufrufen. Auf diese Weise können Sie eigene semantische Kategorien definieren, Datenschutzkategorien angeben sowie reguläre Ausdrücke zum Abgleichen von Spaltenwertmustern und optional zum Abgleichen des Spaltennamens angeben.
Durch das Erstellen und Verwenden kundenspezifischer Klassifizierungsinstanzen bietet folgende Vorteile:
Beschleunigen der Bemühungen um eigene Datenklassifizierungen.
Definieren branchen- und domänenspezifischer Tags für Spalten mit sensiblen Daten.
Nutzen von Snowflake, um mehr Kontrolle über Ihre Bemühungen zu haben, PII-Daten zu verfolgen.
Hinweise¶
Wählen Sie ein Warehouse, das dem Umfang der Daten entspricht, die Sie klassifizieren. Weitere Informationen dazu finden Sie unter Computekosten.
Allgemeine Informationen zum Algorithmus für die kundenspezifische Klassifizierung¶
Snowflake verwendet einen Algorithmus für die kundenspezifische Klassifizierung, der im Vergleich zum Algorithmus für die Datenklassifizierung einzigartig ist. Mit den verschiedenen Klassifizierungsalgorithmen sollen stabile Ergebnisse sichergestellt werden, je nachdem, wie Sie Ihre Daten klassifizieren möchten.
Der Algorithmus für die kundenspezifische Klassifizierung verwendet eine Bewertungsregel, um zu bestimmen, welches System-Tag einer semantischen Kategorie empfohlen werden soll und welche Tags von semantischen Kategorien, falls vorhanden, als Alternativen vorgeschlagen werden sollen. Die Bewertungslogik wertet die regulären Ausdrücke aus, die Sie Ihrer Instanz hinzufügen und die Sie durch Aufrufen der Methode custom_classifier !ADD_REGEX für Ihre Instanz angeben.
Die Bewertungsregel verwendet einen Standard-Schwellenwert von 0.8
, der für ein hohes Vertrauen in das empfohlene Tag steht. Achtzig Prozent der Daten in dem Beispiel müssen mit den regulären Ausdrücken übereinstimmen, die Sie der Instanz hinzufügen. Der Algorithmus vergleicht die Bewertung für eine Spalte mit dem Schwellenwert und empfiehlt ein Tag, das einer der folgenden Optionen entspricht:
Kundenspezifisches Klassifikator-Tag
Sie können den Schwellenwert für eine benutzerdefinierte Klassifizierung angeben, indem Sie die Methode custom_classifier !ADD_REGEX für die Instanz aufrufen.
Bemerkung
Es ist möglich, dass zwei benutzerdefinierte Klassifikatoren die gleiche Punktzahl haben. In diesem Fall wird ein Gleichstand durch die Bewertung der folgenden Punkte gelöst:
Prozentuale Übereinstimmung zwischen den jeweiligen benutzerdefinierten Kategorien
Alphabetische Reihenfolge zwischen den Namen der benutzerdefinierten Kategorien
In einem solchen Fall ist die Gewinnerkategorie die empfohlene Kategorie und der Rest ist in den alternativen Kategorien enthalten.
Die folgende Tabelle gibt einen Überblick über den Bewertungsalgorithmus und das jeweils empfohlene Tag:
Namensabgleicher bereitgestellt |
Wert stimmt überein >= Schwellenwert |
Name stimmt überein |
Empfehlung |
---|---|---|---|
True |
True |
True |
Kundenspezifische Kategorie |
False |
True |
Snowflake-Kategorie |
|
True |
False |
Snowflake-Kategorie |
|
False |
False |
Snowflake-Kategorie |
|
False |
True |
Nicht anwendbar |
Kundenspezifische Kategorie |
False |
Nicht anwendbar |
Snowflake-Kategorie |
Replikation und Klonen¶
Instanzen der Klasse CUSTOM_CLASSIFIER werden repliziert, wenn Sie eine Datenbank replizieren.
Instanzen der Klasse CUSTOM_CLASSIFIER werden geklont, wenn Sie das Schema klonen, das die Instanzen enthält.