Einführung in die Klassifizierung¶
Unter diesem Thema finden Sie Informationen zur Funktionsweise der Klassifizierung.
Informationen zur Verwendung kundenspezifischer Klassifikatoren finden Sie unter Kundenspezifische Datenklassifizierung.
Unter diesem Thema:
Übersicht¶
Bei der Klassifizierung handelt es sich um einen mehrstufigen Prozess, bei dem Felder und Metadaten für personenbezogene Daten analysiert und dann die entsprechenden Spalten mit Snowflake-definierten System-Tags verknüpft werden. Die getaggten Daten können von Data Engineers mit SQL und über Snowsight nachverfolgt werden. Data Engineers können Spalten in einer Tabelle klassifizieren, um festzustellen, ob die Spalte bestimmte Arten von Daten enthält, die nachverfolgt oder geschützt werden müssen, z. B. einen eindeutigen Bezeichner (Pass- oder Bankkontodaten), einen Quasi-Bezeichner (die Stadt, in der die Person lebt) oder einen sensiblen Wert (das Gehalt einer Person).
Durch das Verfolgen der Daten mit einem System-Tag und den Schutz der Daten durch eine Maskierungs- oder Zeilenzugriffsrichtlinie können Data Engineers den mit den Daten verbundenen Governance-Status verbessern. Das Gesamtergebnis der Klassifizierungs- und Datenschutzmaßnahmen besteht in einer verbesserten Einhaltung von Datenschutzbestimmungen.
Sie können eine einzelne Tabelle oder Tabellen in einem Schema klassifizieren. Snowflake bietet vordefinierte System-Tags, mit denen Sie Spalten klassifizieren und taggen können. Sie können aber auch kundenspezifische Klassifikatoren verwenden, um auf der Grundlage Ihres Wissens über Ihre Daten eigene semantische Kategorien zu definieren. Sie können sich auch für einen Ansatz entscheiden, bei dem Snowflake-System-Tags und kundenspezifische Klassifikatoren je nach dem von Ihnen angestrebten Governance-Status verwendet werden.
Die Klassifizierung bietet Datenschutz- und Data Governance-Administratoren die folgenden Vorteile:
- Datenzugriff:
Die Ergebnisse der Klassifizierung von Spaltendaten können Administratoren der Identitäts- und Zugriffsverwaltung dabei helfen, ihre Snowflake-Rollenhierarchien zu evaluieren und zu pflegen, um sicherzustellen, dass die Snowflake-Rollen die passenden Berechtigungen für den Zugriff auf sensible oder PII-Daten haben.
- Datenfreigabe (Data Sharing):
Der Klassifizierungsprozess kann helfen, den Speicherort von PII Daten zu identifizieren und zu bestätigen. Anschließend kann ein Data Sharing-Anbieter anhand der Klassifizierungsergebnisse entscheiden, ob die Daten freigeben werden können und wie die PII-Daten einem Data Sharing-Verbraucher zur Verfügung gestellt werden sollen.
- Anwendung von Richtlinien:
Die Nutzung von Spalten, die PII-Daten enthalten, wie z. B. beim Verweisen auf Spalten in Basistabellen, um eine Ansicht oder materialisierte Ansicht zu erstellen, kann dabei helfen, die beste Methode zum Schutz der Daten entweder mit einer Maskierungsrichtlinie oder einer Zeilenzugriffsrichtlinie zu bestimmen.
Unterstützte Objekte und Datentypen¶
Snowflake unterstützt das Klassifizieren von Daten, die in allen Typen von Tabellen und Ansichten gespeichert sind, wie externen Tabellen, materialisierten Ansichten und sicheren Ansichten.
Sie können Tabellen- und Ansichtsspalten für alle unterstützten Datentypen klassifizieren, mit Ausnahme der folgenden Datentypen:
GEOGRAPHY
BINARY
VARIANT
Beachten Sie, dass Sie eine Spalte mit dem Datentyp VARIANT klassifizieren können, wenn der Spaltendatentyp in einen NUMBER- oder STRING-Datentyp umgewandelt werden kann. Snowflake klassifiziert die Spalte nicht, wenn die Spalte JSON-, XML- oder andere semistrukturierte Daten enthält.
Wenn eine Tabelle Spalten enthält, deren Datentyp nicht unterstützt wird, oder die Spalte nur NULL-Werte enthält, ignoriert der Klassifizierungsprozess diese Spalten und nimmt sie nicht in die Ausgabe auf.
Wichtig
Wenn Ihre Daten NULL-Werte mit einem anderen Wert als NULL darstellen, kann die Genauigkeit der Klassifizierungsergebnisse beeinträchtigt werden.
Computekosten¶
Für den Klassifizierungsprozess sind Computeressourcen erforderlich, die von dem virtuellen Warehouse bereitgestellt werden, das zum Zeitpunkt der Klassifizierung verwendet und ausgeführt wird.
Der Zeitaufwand für die Klassifizierung von Daten einer Tabelle/Ansicht (und damit die Anzahl der vom Warehouse verbrauchten Credits) hängt von der Menge der zu klassifizierenden Daten ab.
Insbesondere bei einer Tabelle oder Ansicht mit einer großen Anzahl von Spalten, die eine Klassifizierung unterstützen, kann dies Auswirkungen auf die Verarbeitungszeit haben. Generell gilt, dass die Verarbeitungsgeschwindigkeit linear mit der Größe des Warehouses steigt. Mit anderen Worten: Jede Vergrößerung eines Warehouses (von X-Small auf Small) lässt sich die Verarbeitungszeit in der Regel um die Hälfte reduzieren.
Verwenden Sie die folgenden allgemeinen Richtlinien bei der Auswahl der Warehouse-Größe:
Bearbeitungszeit spielt keine Rolle: sehr kleines Warehouse (X-Small).
Bis zu 100 Spalten in einer Tabelle: kleines Warehouse (Small).
101 bis 300 Spalten in einer Tabelle: mittelgroßes Warehouse (Medium).
301 Spalten oder mehr in einer Tabelle: großes Warehouse (Large).
Weitere Details dazu finden Sie unter Hinweise zu Warehouses.
Empfehlungen¶
Um das Klassifizierungs-Feature einzusetzen und das Tracking der PII-Daten zu optimieren, gehen Sie wie folgt vor:
- Validierung:
Fragen Sie zuerst die Account Usage-Ansichten ab:
ACCESS_HISTORY: Ermitteln der Tabellen- und Ansichtsobjekte, auf die am häufigsten zugegriffen wird.
OBJECT_DEPENDENCIES: Ermitteln von Metadaten-Referenzen zwischen zwei oder mehreren Objekten.
Verwenden Sie die Ergebnisse der Abfragen, um die Zuweisung der Klassifizierungs-System-Tags auf Schema- oder Datenbankebene zu priorisieren.
- Spaltennamen:
Verwenden Sie sinnvolle Spaltennamen in Ihren Tabellenobjekten, und schulen Sie die Tabellenersteller, sich an die internen Richtlinien für die Tabellenerstellung zu halten.
- Datentypen:
Verwenden Sie sinnvolle Datentypen für Spalten. So sollte zum Beispiel eine AGE-Spalte mit Altersangaben den Datentyp NUMBER haben.
- VARIANT:
Wenn eine Spalte den Datentyp VARIANT hat, führen Sie vor dem Klassifizieren der Tabelle den Befehl FLATTEN auf der Spalte aus.
- Warehouse:
Verwenden Sie bei der Klassifizierung der Daten die passende Warehouse-Größe. Weitere Informationen dazu finden Sie unter Computekosten (unter diesem Thema).
Klassifizierung verwalten¶
Berechtigungsreferenz¶
Mit dem Berechtigungsmodell für die Datenklassifizierung können Datenschutzadministratoren festlegen, welche Personas Tabellen klassifizieren und Spalten taggen dürfen. So kann beispielsweise eine einzige Rolle über alle erforderlichen Berechtigungen verfügen, oder der Datenschutzadministrator kann Berechtigungen an verschiedene Rollen delegieren, um die Anforderungen der Aufgabentrennung (Separation of Duties, SoD) zu erfüllen. Ein Beispiel für eine tragfähige Kombination von Berechtigungen wird im Abschnitt Erste Schritte zum Klassifizieren von Daten von Datenklassifizierung verwenden vorgestellt.
Als Administrator haben Sie verschiedene Optionen, je nachdem, wie Sie die beteiligten Rollen oder Personas verwalten möchten. Die Optionen bieten Flexibilität für den von Ihnen angestrebten Governance-Status. Beispiel:
Der Tabelleneigentümer (d. h. die Rolle mit der Berechtigung OWNERSHIP für die Tabelle) kann die Tabelle klassifizieren und System-Tags auf den Spalten festlegen.
Eine kundenspezifische Rolle mit der SELECT-Berechtigung für die Tabelle und der APPLY TAG-Berechtigung für das Konto kann die Tabelle klassifizieren und System-Tags auf den Spalten festlegen.
Wenn Sie möchten, dass verschiedene Rollen oder Personas am Klassifizieren und Tagging von Spalten beteiligt sind, können Sie einer Rolle die SELECT-Berechtigung für die Tabelle und einer anderen Rolle die APPLY TAG-Berechtigung für das Konto erteilen.
In der folgenden Tabelle sind die verschiedenen Optionen zum Klassifizieren einer Tabelle, zum Festlegen der Datenklassifizierungs-System-Tags auf Spalten und zum Durchführen dieser beiden Aufgaben zusammengefasst:
Berechtigung oder Rolle |
Tabellen klassifizieren |
System-Tags für Spalten festlegen |
---|---|---|
SELECT für die Tabelle oder Ansicht |
✔ |
|
OWNERSHIP für die Tabelle |
✔ |
✔ |
APPLY TAG für das Konto |
✔ |
|
ACCOUNTADMIN-Rolle |
✔ |
|
OWNERSHIP für die Datenbank oder das Schema |
Wichtig
Für das Klassifizieren von Tabellen ist ein aktives Warehouse erforderlich. Die Rolle, mit der eine Tabelle klassifiziert wird, muss mindestens über die USAGE-Berechtigung für ein Warehouse verfügen.
Sie können einer Kontorolle die Datenbankrolle SNOWFLAKE.GOVERNANCE_VIEWER zuweisen, damit Benutzer mit dieser Kontorolle die Ansicht DATA_CLASSIFICATION_LATEST abfragen und so die neuesten Ergebnisse einer klassifizierten Tabelle anzeigen können.