Klassifizierung sensibler Daten¶
In diesem Thema erfahren Sie, wie die Klassifizierung sensibler Daten funktioniert.
Informationen zur Verwendung kundenspezifischer Klassifikatoren finden Sie unter Benutzerdefinierte Klassifizierung sensibler Daten.
Überblick¶
Die Klassifizierung sensibler Daten ist ein mehrstufiger Prozess, bei dem die von Snowflake definierten System-Tags den Spalten zugeordnet werden, indem die Felder und Metadaten auf personenbezogene Daten analysiert werden. Diese Daten können von einem Datentechniker mithilfe von SQL und Snowsight nachverfolgt werden. Data Engineers können Spalten in einer Tabelle klassifizieren, um festzustellen, ob die Spalte bestimmte Arten von Daten enthält, die nachverfolgt oder geschützt werden müssen, z. B. einen eindeutigen Bezeichner (Pass- oder Bankkontodaten), einen Quasi-Bezeichner (die Stadt, in der die Person lebt) oder einen sensiblen Wert (das Gehalt einer Person).
Durch das Verfolgen der Daten mit einem System-Tag und den Schutz der Daten durch eine Maskierungs- oder Zeilenzugriffsrichtlinie können Data Engineers den mit den Daten verbundenen Governance-Status verbessern. Das Gesamtergebnis der Klassifizierungs- und Datenschutzmaßnahmen besteht in einer verbesserten Einhaltung von Datenschutzbestimmungen.
Sie können eine einzelne Tabelle oder Tabellen in einem Schema klassifizieren. Snowflake bietet vordefinierte System-Tags, mit denen Sie Spalten klassifizieren und taggen können. Sie können aber auch kundenspezifische Klassifikatoren verwenden, um auf der Grundlage Ihres Wissens über Ihre Daten eigene semantische Kategorien zu definieren. Sie können sich auch für einen Ansatz entscheiden, bei dem Snowflake-System-Tags und kundenspezifische Klassifikatoren je nach dem von Ihnen angestrebten Governance-Status verwendet werden.
Die Klassifizierung bietet Datenschutz- und Data Governance-Administratoren die folgenden Vorteile:
- Datenzugriff:
Die Ergebnisse der Klassifizierung von Spaltendaten können Administratoren der Identitäts- und Zugriffsverwaltung dabei helfen, ihre Snowflake-Rollenhierarchien zu evaluieren und zu pflegen, um sicherzustellen, dass die Snowflake-Rollen die passenden Berechtigungen für den Zugriff auf sensible oder PII-Daten haben.
- Datenfreigabe (Data Sharing):
Der Klassifizierungsprozess kann helfen, den Speicherort von PII Daten zu identifizieren und zu bestätigen. Anschließend kann ein Data Sharing-Anbieter anhand der Klassifizierungsergebnisse entscheiden, ob die Daten freigeben werden können und wie die PII-Daten einem Data Sharing-Verbraucher zur Verfügung gestellt werden sollen.
- Anwendung von Richtlinien:
Die Nutzung von Spalten, die PII-Daten enthalten, wie z. B. beim Verweisen auf Spalten in Basistabellen, um eine Ansicht oder materialisierte Ansicht zu erstellen, kann dabei helfen, die beste Methode zum Schutz der Daten entweder mit einer Maskierungsrichtlinie oder einer Zeilenzugriffsrichtlinie zu bestimmen.
Unterstützte Objekte und Datentypen¶
Snowflake unterstützt das Klassifizieren von Daten, die in allen Typen von Tabellen und Ansichten gespeichert sind, wie externen Tabellen, materialisierten Ansichten und sicheren Ansichten.
Beachten Sie, dass Snowflake keine Klassifizierung auf freigegebenen Tabellen und freigegebenen Schemas auf der Seite des Verbrauchers unterstützt. Wenn eine Tabelle vom Anbieter erstellt und in die Ausgangsfreigabe des Anbieters gestellt wird, funktioniert die Klassifizierung nur, wenn sie von der Seite des Anbieters aufgerufen wird.
Sie können Tabellen- und Ansichtsspalten für alle unterstützten Datentypen klassifizieren, mit Ausnahme der folgenden Datentypen:
ARRAY
BINARY
GEOGRAPHY
OBJECT
VARIANT
Beachten Sie, dass Sie eine Spalte mit dem Datentyp VARIANT klassifizieren können, wenn der Spaltendatentyp in einen NUMBER- oder STRING-Datentyp umgewandelt werden kann. Snowflake klassifiziert die Spalte nicht, wenn die Spalte JSON-, XML- oder andere semistrukturierte Daten enthält.
VECTOR
Wenn eine Tabelle Spalten enthält, deren Datentyp nicht unterstützt wird, oder die Spalte nur NULL-Werte enthält, ignoriert der Klassifizierungsprozess diese Spalten und nimmt sie nicht in die Ausgabe auf.
Wichtig
Wenn Ihre Daten NULL-Werte mit einem anderen Wert als NULL darstellen, kann die Genauigkeit der Klassifizierungsergebnisse beeinträchtigt werden.
Empfehlungen¶
Um das Klassifizierungs-Feature einzusetzen und das Tracking der PII-Daten zu optimieren, gehen Sie wie folgt vor:
- Validierung:
Fragen Sie zuerst die Account Usage-Ansichten ab:
ACCESS_HISTORY: Ermitteln der Tabellen- und Ansichtsobjekte, auf die am häufigsten zugegriffen wird.
OBJECT_DEPENDENCIES: Ermitteln von Metadaten-Referenzen zwischen zwei oder mehreren Objekten.
Verwenden Sie die Ergebnisse der Abfragen, um die Zuweisung der Klassifizierungs-System-Tags auf Schema- oder Datenbankebene zu priorisieren.
- Spaltennamen:
Verwenden Sie sinnvolle Spaltennamen in Ihren Tabellenobjekten, und schulen Sie die Tabellenersteller, sich an die internen Richtlinien für die Tabellenerstellung zu halten.
- Datentypen:
Verwenden Sie sinnvolle Datentypen für Spalten. So sollte zum Beispiel eine AGE-Spalte mit Altersangaben den Datentyp NUMBER haben.
- VARIANT:
Wenn eine Spalte den Datentyp VARIANT hat, führen Sie vor dem Klassifizieren der Tabelle den Befehl FLATTEN auf der Spalte aus.
Tabellen und Schemas klassifizieren¶
Nachdem Sie alle benutzerdefinierten Klassifizierer definiert haben, die Sie verwenden möchten, sind Sie bereit, Ihre sensiblen Daten zu klassifizieren. Sie können die folgenden Methoden verwenden:
Manuelles Klassifizieren einer bestimmten Tabelle. Sie können den Klassifizierungsprozess mit Snowsight oder durch Ausführen eines SQL-Befehls starten.
Richten Sie ein Klassifizierungsprofil für ein Schema ein, damit die Tabellen im Schema automatisch klassifiziert werden.
Verwalten Sie die Klassifizierung sensibler Daten¶
Berechtigungsreferenz¶
Mit dem Berechtigungsmodell für die Datenklassifizierung können Datenschutzadministratoren festlegen, welche Personas Tabellen klassifizieren und Spalten taggen dürfen. So kann beispielsweise eine einzige Rolle über alle erforderlichen Berechtigungen verfügen, oder der Datenschutzadministrator kann Berechtigungen an verschiedene Rollen delegieren, um die Anforderungen der Aufgabentrennung (Separation of Duties, SoD) zu erfüllen. Ein Beispiel für eine tragfähige Kombination von Berechtigungen wird im Abschnitt Erste Schritte zum Klassifizieren von Daten von Sensible Daten manuell klassifizieren vorgestellt.
Als Administrator haben Sie verschiedene Optionen, je nachdem, wie Sie die beteiligten Rollen oder Personas verwalten möchten. Die Optionen bieten Flexibilität bei der von Ihnen gewünschten Governance-Struktur. Beispiel:
Der Tabelleneigentümer (d. h. die Rolle mit der Berechtigung OWNERSHIP für die Tabelle) kann die Tabelle klassifizieren und System-Tags auf den Spalten festlegen.
Eine kundenspezifische Rolle mit der SELECT-Berechtigung für die Tabelle und der APPLY TAG-Berechtigung für das Konto kann die Tabelle klassifizieren und System-Tags auf den Spalten festlegen.
Wenn Sie möchten, dass verschiedene Rollen oder Personas am Klassifizieren und Tagging von Spalten beteiligt sind, können Sie einer Rolle die SELECT-Berechtigung für die Tabelle und einer anderen Rolle die APPLY TAG-Berechtigung für das Konto erteilen.
In der folgenden Tabelle sind die verschiedenen Optionen zum Klassifizieren einer Tabelle, zum Festlegen der Datenklassifizierungs-System-Tags auf Spalten und zum Durchführen dieser beiden Aufgaben zusammengefasst:
Berechtigung oder Rolle |
Tabellen klassifizieren |
System-Tags für Spalten festlegen |
---|---|---|
SELECT für die Tabelle oder Ansicht |
✔ |
|
OWNERSHIP für die Tabelle |
✔ |
✔ |
APPLY TAG für das Konto |
✔ |
|
ACCOUNTADMIN-Rolle |
✔ |
|
OWNERSHIP für die Datenbank oder das Schema |
Wichtig
Für das Klassifizieren von Tabellen ist ein aktives Warehouse erforderlich. Die Rolle, mit der eine Tabelle klassifiziert wird, muss mindestens über die USAGE-Berechtigung für ein Warehouse verfügen.
Sie können einer Kontorolle die Datenbankrolle SNOWFLAKE.GOVERNANCE_VIEWER zuweisen, damit Benutzer mit dieser Kontorolle die Ansicht DATA_CLASSIFICATION_LATEST abfragen und so die neuesten Ergebnisse einer klassifizierten Tabelle anzeigen können.