Einführung in die Klassifizierung sensibler Daten¶

Es ist wichtig zu wissen, wo sich Ihre sensiblen Daten befinden und ob sie angemessen geschützt sind. Dies ist nicht nur eine Best Practice. In vielen Branchen ist es eine wichtige Anforderung, die Einhaltung von Vorschriften zu gewährleisten. Snowflake bietet eine Lösung, die sensible Daten automatisch erkennt und die Anwendung von Governance-Kontrollen wie Tags und Maskierungsrichtlinien vereinfacht.

Snowflake klassifiziert sensible Daten in native Kategorien wie Name und nationale Kennung, aber Sie können auch Ihre eigenen kundenspezifische Kategorien erstellen, um sensible Daten zu erkennen, die für Ihre Organisation oder Domäne spezifisch sind.

Erste Schritte¶

Snowflake bietet eine Weboberfläche, um die Klassifizierung sensibler Daten zu konfigurieren und den Governance-Status sensibler Daten anzuzeigen.

Führen Sie zunächst eine der folgenden Aktionen aus:

Informationen zum Einrichten der Klassifizierung sensibler Daten finden Sie unter Verwenden des Trust Centers, um die Klassifizierung sensibler Daten einzurichten.
Die Ergebnisse der Klassifizierung sensibler Daten finden Sie unter Verwenden des Trust Centers, um Ergebnisse anzuzeigen.

Zentrale Konzepte für die Klassifizierung sensibler Daten¶

Informationen zu Klassifizierungskategorien¶

Bei der Klassifizierung sensibler Daten werden jeder Spalte, deren Inhalt als sensible Daten identifiziert wird, zwei Kategorien zugeordnet: eine semantische Kategorie und eine Datenschutzkategorie.

Eine semantische Kategorie bezeichnet den Typ des personenbezogenen Attributs. Snowflake bietet native Kategorien für allgemeine Attribute wie Namen und Adressen. Wenn Ihre sensiblen Daten nicht in eine native Kategorie passen, können Sie eine kundenspezifische Kategorie dafür erstellen.
Eine Datenschutzkategorie gibt die Sensitivität eines personenbezogenen Attributs an. Dies kann entweder sein IDENTIFIER, QUASI_IDENTIFIER oder SENSITIVE (eine generische Kategorie ohne Bezeichner für Dinge wie z. B. Gehalt) sein.

Informationen zu Klassifizierungs-Tags¶

Ein Tag ist ein Snowflake-Objekt, das einer Spalte zugewiesen werden kann. Snowflake verwendet die folgenden vom System definierten Tags, um Spalten zu identifizieren, deren Inhalt als sensible Daten eingestuft wurde.

SNOWFLAKE.CORE.SEMANTIC_CATEGORY: Tag, mit dem die native oder kundenspezifische Kategorie der Daten in einer Spalte identifiziert wird.
SNOWFLAKE.CORE.PRIVACY_CATEGORY: Tag, mit dem die Datenschutzkategorie der Daten in einer Spalte identifiziert wird.

Sie können benutzerdefinierte Tags den vom System definierten Klassifizierungs-Tags zuordnen. Sie können z. B. eine Tag-Zuordnung so einrichten, dass jedes Mal, wenn das System-Tag SNOWFLAKE.CORE.SEMANTIC_CATEGORY = 'NAME' auf eine Spalte angewendet wird, das benutzerdefinierte Tag tag_db.sch.pii = 'Highly confidential' ebenfalls angewendet wird.

Über Klassifizierungsprofile¶

Wenn Sie die Weboberfläche des Trust Center verwenden, um Klassifizierungseinstellungen festzulegen, werden diese Einstellungen als Klassifizierungsprofil gespeichert. Dieses Klassifizierungsprofil kann später bearbeitet werden, um die Einstellungen zu ändern, die die Klassifizierung der Daten steuern. Auf der Weboberfläche steuert das Klassifizierungsprofil auch, welche Datenbanken mit den Einstellungen des Profils klassifiziert werden.

Sie können auch SQL-Befehle verwenden, um ein Klassifizierungsprofil zu erstellen und zu ändern. Wenn Sie SQL verwenden, ist das Verknüpfen des Klassifizierungsprofils mit einer Datenbank, um den Klassifizierungsprozess zu starten, ein separater Schritt.

Schutz sensibler Daten¶

Snowflake bietet die Governance-Tools, die Sie benötigen, um Ihre sensiblen Daten zu verfolgen und zu schützen.

Sie können den Klassifizierungsprozess so konfigurieren, dass Snowflake automatisch System- und benutzerdefinierte -Tags für Daten zuweist, die als sensibel eingestuft sind. Sie können dann die Daten innerhalb Ihres Datenbestands verfolgen, indem Sie die Tags verfolgen.
Sie können eine -Maskierungsrichtlinie für Spalten zuweisen, die sensible Daten enthalten, um die Daten zur Abfragezeit selektiv zu maskieren.
Sie können Tagging und Maskierungsrichtlinien kombinieren, um Daten, die als sensibel eingestuft sind, automatisch zu maskieren. Wenn Sie Tag-basierte Maskierung verwenden, um eine Maskierungsrichtlinie mit einem benutzerdefinierten Tag zu verknüpfen, werden die Daten automatisch maskiert, wenn Snowflake das Tag als Teil des Klassifizierungsprozesses anwendet. Sobald einer Datenbank neue Daten hinzugefügt werden, werden die Tag-basierten Maskierungsrichtlinien automatisch den Spalten zugewiesen, die sensible Daten enthalten.

Bestimmen, welche Datenbanken klassifiziert werden¶

Sie können bestimmen, welche Daten von der automatischen Klassifizierung sensibler Daten überwacht werden, indem Sie die Datenbanken und Schemas auflisten, die mit einem Klassifizierungsprofil verbunden sind. Wenn eine Datenbank oder ein Schema mit einem Klassifizierungsprofil verbunden ist, werden alle Tabellen und Ansichten in dieser Entität automatisch nach den im Profil definierten Kriterien klassifiziert.

So bestimmen Sie, welche Datenbanken klassifiziert werden:

Melden Sie sich bei Snowsight als Benutzer mit den erforderlichen Berechtigungen an.
Wählen Sie im Navigationsmenü die Option Governance & security » Trust Center aus.
Wählen Sie die Registerkarte Data Security aus.
Wählen Sie die Registerkarte Dashboard aus.
Suchen Sie die Kachel Databases monitored by classification. Um die zu klassifizierenden Datenbanken aufzulisten, wählen Sie Monitored oder Partially monitored aus.

Bemerkung

Eine Datenbank wird teilweise überwacht, wenn jemand SQL verwendet hat, um ein Klassifizierungsprofil direkt für ein Schema in der Datenbank festzulegen, anstatt das Profil auf Datenbankebene festzulegen.

Verwenden Sie die Funktion SYSTEM$SHOW_SENSITIVE_DATA_MONITORED_ENTITIES zur Auflistung der Datenbanken und Schemas, die mit einem Klassifizierungsprofil verknüpft sind.

SELECT SYSTEM$SHOW_SENSITIVE_DATA_MONITORED_ENTITIES('DATABASE');

Copy

Hinweise zu Kosten¶

Die automatische Klassifizierung sensibler Daten verbraucht Credits, da sie serverlose Computeressourcen zur Klassifizierung von Tabellen in der Datenbank nutzt. Weitere Informationen zu den Preisen für diesen Verbrauch finden Sie in Tabelle 5 in der Snowflake Service Consumption Table.

Bemerkung

Das Klassifizieren von Ansichten ist unter Umständen kostspieliger als das Klassifizieren von Tabellen. Die zusätzlichen Kosten richten sich nach der Komplexität der Abfrage, mit der die Ansicht erstellt wurde. Bei materialisierten Ansichten fallen diese zusätzlichen Kosten nicht an. Standardmäßig sind Ansichten von der Klassifizierung ausgeschlossen.

Anzeigen der Kosten in Snowsight¶

So überprüfen Sie die Kosten für die Klassifizierung sensibler Daten:

Melden Sie sich bei Snowsight an.
Wechseln Sie zu einer Rolle mit Zugriff auf Kosten- und Nutzungsdaten.
Wählen Sie im Navigationsmenü die Option Admin » Cost management aus.
Wählen Sie das Warehouse aus, für das Sie Nutzungsdaten anzeigen möchten. Snowflake empfiehlt die Verwendung eines XS-Warehouses für diesen Zweck.
Wählen Sie Consumption aus.
Wählen Sie in der Dropdown-Liste Usage Type die Option Compute aus.
Wählen Sie in der Dropdown-Liste Service Type die Option Sensitive Data Classification aus.

Verwenden von SQL, um die Kosten abzufragen¶

Sie können Ansichten in den Schemas ACCOUNT_USAGE und ORGANIZATION_USAGE abfragen, um festzustellen, wie viel für die automatische Klassifizierung sensibler Daten ausgegeben wurde. Um den Credit-Verbrauch zu überwachen, fragen Sie die folgenden Ansichten ab:

METERING_HISTORY-Ansicht (ACCOUNT_USAGE)

Ermöglicht es Ihnen, die stündlichen Kosten der automatischen Klassifizierung abzurufen, indem Sie sich auf SENSITIVE_DATA_CLASSIFICATION in der Spalte SERVICE_TYPE konzentrieren. Beispiel:

SELECT
  service_type,
  start_time,
  end_time,
  entity_id,
  name,
  credits_used_compute,
  credits_used_cloud_services,
  credits_used,
  budget_id
  FROM SNOWFLAKE.ACCOUNT_USAGE.METERING_HISTORY
  WHERE service_type = 'SENSITIVE_DATA_CLASSIFICATION';

Copy

METERING_DAILY_HISTORY anzeigen (ACCOUNT_USAGE und ORGANIZATION_USAGE)

Ermöglicht es Ihnen, die täglichen Kosten der automatischen Klassifizierung abzurufen, indem Sie sich auf SENSITIVE_DATA_CLASSIFICATION in der Spalte SERVICE_TYPE konzentrieren. Beispiel:

SELECT
  service_type,
  usage_date,
  credits_used_compute,
  credits_used_cloud_services,
  credits_used
  FROM SNOWFLAKE.ACCOUNT_USAGE.METERING_DAILY_HISTORY
  WHERE service_type = 'SENSITIVE_DATA_CLASSIFICATION';

Copy

USAGE_IN_CURRENCY_DAILY (ORGANIZATION_USAGE)

Ermöglicht es Ihnen, die täglichen Kosten der automatischen Klassifizierung abzurufen, indem Sie sich auf SENSITIVE_DATA_CLASSIFICATION in der Spalte SERVICE_TYPE konzentrieren. Verwenden Sie diese Ansicht, um die Kosten in Währung zu ermitteln, nicht in Credits.

Unterstützte Objekte¶

Snowflake unterstützt die Klassifizierung von Daten, die in allen Typen von Snowflake-Tabellen und -Ansichten gespeichert sind.

Beachten Sie, dass Snowflake keine Klassifizierung auf freigegebenen Tabellen und freigegebenen Schemas auf der Seite des Verbrauchers unterstützt. Wenn eine Tabelle vom Anbieter erstellt und in die Ausgangsfreigabe des Anbieters gestellt wird, funktioniert die Klassifizierung nur, wenn sie von der Seite des Anbieters aufgerufen wird.

Unterstützte Datentypen¶

Sie können Tabellen- und Ansichtsspalten für alle unterstützten Datentypen klassifizieren, mit Ausnahme der folgenden Datentypen:

ARRAY
BINARY
DECFLOAT
GEOGRAPHY
OBJECT
VARIANT (außer wenn der Spaltendatentyp Umwandlung zu einem NUMBER- oder STRING-Datentyp ist)
VECTOR

Bemerkung

Unstrukturierte Daten wie langer Text, der in Spalten gespeichert ist, werden nicht unterstützt.
JSON, XML oder andere semistrukturierte Daten werden nicht unterstützt.

Einschränkungen und Hinweise¶

Klassifizierungsprofile können nicht auf einem Leserkonto eingerichtet werden.
Ein Klassifizierungsprofil kann nicht für mehr als 1.000 Datenbanken festgelegt werden.
Ein Klassifizierungsprofil kann nicht für mehr als 10.000 Schemas direkt festgelegt werden.
Einem Schema können maximal 100 Millionen Tabellen zugeordnet werden.
Sie können eine Tabelle nicht automatisch klassifizieren, wenn sie eines der folgenden Merkmale aufweist:
- Mehr als 10.000 Spalten.
- Eine Spalte mit einem Namen, der mehr als 255 Zeichen enthält.
- Eine Spalte mit dem Zeichen $ im Namen.