Erstellen kundenspezifischer Kategorien für sensible Daten¶

Wenn es keine native semantische Kategorie gibt, die Ihre domänenspezifischen sensiblen Daten erkennt, können Sie eine kundenspezifische Kategorie für Ihre sensiblen Daten erstellen.

Implementieren Sie kundenspezifische semantische Kategorien, indem Sie einen kundenspezifischen Klassifikator definieren. Ein kundenspezifischer Klassifikator hat die folgenden Attribute:

Kundenspezifische semantische Kategorien, die Datentypen identifizieren, beispielsweise medical_code und employee_id.
Reguläre Ausdrücke, die vom Snowflake-Algorithmus verwendet werden, um Ihre sensiblen Daten zu erkennen.
Eine der vordefinierten Datenschutzkategorien.

Wie es funktioniert¶

Snowflake stellt die CUSTOM_CLASSIFIERKlasse :doc:`</sql-reference/classes/custom_classifier> ` im SNOWFLAKE.DATA_PRIVACY-Schema bereit, damit Data Engineers ihre Möglichkeiten zur Datenklassifizierung auf der Grundlage ihres eigenen Wissens über ihre Daten erweitern können. Nachdem Sie eine Instanz der Klasse erstellt haben, können Sie auf der Instanz Methoden aufrufen. Auf diese Weise können Sie kundenspezifische semantische Kategorien definieren, Datenschutzkategorien angeben sowie reguläre Ausdrücke zum Abgleichen von Spaltenwertmustern und optional zum Abgleichen des Spaltennamens angeben.

Wichtig

Bei der Klassifizierung sensibler Daten wird die Definition eines kundenspezifischen Klassifikators gespeichert, keine Referenz. Wenn Sie den kundenspezifischen Klassifikator ändern, müssen Sie die Methode SET_CUSTOM_CLASSIFIERS verwenden, um das Klassifizierungsprofil mit der neuen Definition zu aktualisieren.

Ein Beispiel für die Verwendung der CUSTOM_CLASSIFIER-Klasse zum Erstellen und Verwenden eines kundenspezifischen Klassifikators finden Sie unter Beispiel.

Hinweise¶

Wählen Sie ein Warehouse, das dem Umfang der Daten entspricht, die Sie klassifizieren:

Bearbeitungszeit spielt keine Rolle: sehr kleines Warehouse (X-Small).
Bis zu 100 Spalten in einer Tabelle: kleines Warehouse (Small).
101 bis 300 Spalten in einer Tabelle: mittelgroßes Warehouse (Medium).
Mehr als 300 in einer Tabelle: großes Warehouse.

Schwellenwert für kundenspezifische Kategorien¶

Der Algorithmus, der zur Klassifizierung kundenspezifischer Kategorien verwendet wird, verwendet eine Bewertungsregel, um den regulären Ausdruck Ihres kundenspezifischen Klassifikators auszuwerten und zu bestimmen, welche semantische Kategorie empfohlen werden sollte.

Die Bewertungsregel verwendet einen Standard-Schwellenwert von 0,8, der für ein hohes Vertrauen in die empfohlene Kategorie steht. Achtzig Prozent der Daten in dem Beispiel müssen mit den regulären Ausdrücken übereinstimmen, die Sie der Instanz hinzufügen. Der Algorithmus vergleicht die Bewertung für eine Spalte mit dem Schwellenwert und empfiehlt eine Kategorie, die einer der folgenden Optionen entspricht:

Nicht internationales System-Tag
Internationales System-Tag
Kundenspezifisches Klassifikator-Tag

Sie können den Schwellenwert für eine benutzerdefinierte Klassifizierung angeben, indem Sie die Methode custom_classifier !ADD_REGEX für die Instanz aufrufen.

Bemerkung

Es ist möglich, dass zwei benutzerdefinierte Klassifikatoren die gleiche Punktzahl haben. In diesem Fall wird ein Gleichstand durch die Bewertung der folgenden Punkte gelöst:

Prozentuale Übereinstimmung zwischen den jeweiligen benutzerdefinierten Kategorien
Alphabetische Reihenfolge zwischen den Namen der benutzerdefinierten Kategorien

In einem solchen Fall ist die Gewinnerkategorie die empfohlene Kategorie und der Rest ist in den alternativen Kategorien enthalten.

Die folgende Tabelle gibt einen Überblick über den Bewertungsalgorithmus und das jeweils empfohlene Tag:


Namensabgleicher bereitgestellt	Wert stimmt überein >= Schwellenwert	Name stimmt überein	Empfehlung
True	True	True	Kundenspezifische Kategorie
	False	True	Snowflake-Kategorie
	True	False	Snowflake-Kategorie
	False	False	Snowflake-Kategorie
False	True	Nicht anwendbar	Kundenspezifische Kategorie
	False	Nicht anwendbar	Snowflake-Kategorie

Replikation und Klonen¶

Instanzen der Klasse CUSTOM_CLASSIFIER werden repliziert, wenn Sie eine Datenbank replizieren.
Instanzen der Klasse CUSTOM_CLASSIFIER werden geklont, wenn Sie das Schema klonen, das die Instanzen enthält.