Datenklassifizierung verwenden

Unter diesem Thema finden Sie Informationen dazu, wie Tabellen in einem Schema klassifiziert, die Klassifizierungsergebnisse überprüft und System-Tags auf die Spalten in den Tabellen mit SQL oder über Snowsight gesetzt werden.

Übersicht

Ein Datenverwalter kann Tabellen in einem Schema klassifizieren, um Datenschutzbestimmungen zu erfüllen. Diese Tabellen enthalten die folgenden Szenarios:

  • Neue Tabellen in einem Schema.

  • Neue Spalten oder geänderte Spalten in einer Tabelle innerhalb desselben Schemas.

  • Zuvor klassifizierte Tabellen, die möglicherweise erneut klassifiziert werden müssen.

Durch Evaluierung dieser Szenarios können Datenverwalter sensible und personenbezogene Informationen klassifizieren. Durch das Setzen von System-Tags auf die Spalte wird die Überwachung der Daten vereinfacht. Anschließend können Data Engineers die personenbezogenen und sensiblen Daten mit einer Maskierungsrichtlinie oder einer Zeilenzugriffsrichtlinie über Snowsight oder mit SQL schützen.

Erste Schritte zum Klassifizieren von Daten

Bevor Sie eine einzelne Tabelle oder Tabellen in einem Schema klassifizieren, führen Sie folgende Schritte aus:

  • Wählen Sie einen Workflow:

  • Entscheiden Sie sich für das zu verwendende Warehouse. Verwenden Sie z. B. ein Warehouse, das der Kostenstelle oder dem Geschäftsbereich entspricht, zu dem Sie gehören, um eine präzise Berichterstattung und Budgetierung zu ermöglichen.

  • Berücksichtigen Sie die Latenz in Ihrem Workflow. Snowsight aktualisiert den Bereich Databases von Snowsight alle 12 Stunden. Ab diesem Zeitpunkt können die aktualisierten Tabellen klassifiziert werden.

  • Prüfen Sie die Konfiguration der Zugriffssteuerung für Ihre aktuelle Rolle:

    • Verwenden Sie eine SHOW GRANTS TO ROLE-Anweisung, um die Berechtigungen für Objekte anzuzeigen, auf die ein Benutzer mit dieser Rolle zugreifen kann. Die verwendete Rolle muss mindestens über die folgenden Berechtigungen verfügen:

      • USAGE für das Warehouse, das bei der Klassifizierung verwendet werden soll.

      • SELECT für die Tabelle, um den Klassifizierungsprozess zu starten.

      • Die Datenbankrolle SNOWFLAKE.CORE_VIEWER, mit der System-Tags auf Spalten gesetzt werden können.

      • Die Datenbankrolle SNOWFLAKE.GOVERNANCE_VIEWER zum Abfragen der Account Usage-Ansicht DATA_CLASSIFICATION_LATEST.

    • Weitere Kombinationen von Berechtigungen finden Sie unter Übersicht zu Datenklassifizierungs-Berechtigungen.

    • Das Zugriffssteuerungsmodell ermöglicht es, dass verschiedene Personas in die Workflows einbezogen werden können. Beispielsweise kann der Datenverwalter die Klassifizierung von Tabellen in einem Schema vornehmen, und der Data Engineer kann die Ergebnisse in Snowsight auswerten. Wählen Sie das Zugriffssteuerungsmodell und den Workflow, der am besten für Sie geeignet ist.

Verwenden von SQL zum Klassifizieren einzelner Tabellen

Bei diesem Ansatz wird SQL verwendet, um eine Tabelle zu klassifizieren und System-Tags auf Spalten in den Tabellen zu setzen. Prüfen Sie noch einmal Abschnitt Erste Schritte zum Klassifizieren von Daten. Stellen Sie sicher, dass die verwendete Rolle über die erforderlichen Berechtigungen für die Zugriffssteuerung verfügt, die zum Klassifizieren der Tabellen im Schema erforderlich sind.

Dieses Verfahren setzt voraus, dass Sie eine Rolle mit den entsprechenden Berechtigungen verwenden. Führen Sie die folgenden Schritte aus, um SQL zum Klassifizieren von Tabellen in einem Schema zu verwenden und System-Tags auf die Tabellenspalten zu setzen:

  1. Identifizieren Sie eine Tabelle zur Klassifizierung.

  2. Rufen Sie die gespeicherte Prozedur SYSTEM$CLASSIFY auf, um die Spalten in der Tabelle zu klassifizieren und zu taggen:

    CALL SYSTEM$CLASSIFY('hr.tables.empl_info', {'auto_tag': true});
    
    Copy
  3. Rufen Sie die Information Schema-Tabellenfunktion TAG_REFERENCES_ALL_COLUMNS auf, um die Tag-Zuweisungen für die Spalten der Tabelle zu bestätigen:

    SELECT *
    FROM TABLE(
      hr.INFORMATION_SCHEMA.TAG_REFERENCES_ALL_COLUMNS(
        'hr.tables.empl_info',
        'table'
    ));
    
    Copy
  4. Danach können Sie die Account Usage-Ansicht DATA_CLASSIFICATION_LATEST abfragen, um das letzte Klassifizierungsergebnis für die Tabelle anzuzeigen.

Wiederholen Sie diese Schritte für jede Tabelle, die Sie klassifizieren möchten.

Verwenden von SQL zum Klassifizieren der Tabellen in einem Schema

Bei diesem Ansatz wird SQL verwendet, um alle Tabellen in einem Schema zu klassifizieren und System-Tags auf Spalten in jeder Tabelle zu setzen. Dieses Verfahren setzt Folgendes voraus:

  • Dieses Verfahren setzt voraus, dass Sie eine Rolle mit den entsprechenden Berechtigungen verwenden.

  • Wählen Sie ein Schema aus, das weniger als 1.000 Tabellenobjekte enthält. Sie können einen SHOW TABLES IN SCHEMA-Befehl verwenden, um die Anzahl der Tabellenobjekte im Schema zu ermitteln.

Führen Sie die folgenden Schritte aus, um mit SQL alle Tabellen in einem Schema zu klassifizieren und System-Tags auf jede Spalte in jeder Tabelle zu setzen:

  1. Identifizieren Sie ein Schema, das Tabellen zur Klassifizierung enthält.

  2. Rufen Sie die gespeicherte Prozedur SYSTEM$CLASSIFY_SCHEMA auf, um die Klassifizierung der Tabellen im Schema zu planen:

    CALL SYSTEM$CLASSIFY_SCHEMA('hr.tables', {'auto_tag': true});
    
    Copy
  3. Wenn die Ausgabe eine failed-Meldung für eine oder mehrere Tabellen enthält, verwenden Sie einen SNOW GRANTS ON TABLE-Befehl, um die Berechtigungen für die angegebene Tabelle zu ermitteln. Beispiel:

    SHOW GRANTS ON TABLE hr.tables.salary;
    
    Copy
  4. Falls erforderlich, erteilen Sie der Rolle, die die gespeicherte Prozedur SYSTEM$CLASSIFY_SCHEMA aufruft, Berechtigungen für die nicht klassifizierte Tabelle. Andernfalls rufen Sie die Funktion SYSTEM$GET_CLASSIFICATION_RESULT für jede Tabelle im Schema auf:

    SELECT SYSTEM$GET_CLASSIFICATION_RESULT('hr.tables.empl_info');
    
    Copy
  5. Rufen Sie die Information Schema-Tabellenfunktion TAG_REFERENCES_ALL_COLUMNS auf, um die Tag-Zuweisungen für die Spalten der Tabelle zu bestätigen:

    SELECT *
    FROM TABLE(
      hr.INFORMATION_SCHEMA.TAG_REFERENCES_ALL_COLUMNS(
        'hr.tables.empl_info',
        'table'
    ));
    
    Copy
  6. Danach können Sie die Account Usage-Ansicht DATA_CLASSIFICATION_LATEST abfragen, um das letzte Klassifizierungsergebnis für die Tabelle anzuzeigen.

Wiederholen Sie diese Schritte für jedes Schema, das Tabellen enthält, die Sie klassifizieren möchten.

Verwenden von Snowsight zum Klassifizieren der Tabellen in einem Schema

Bei diesem Ansatz wird Snowsight verwendet, um die Klassifizierung der Tabellen in einem Schema festzulegen und die Spalten jeder Tabelle im Schema automatisch zu taggen. Das Verfahren setzt voraus, dass Sie eine Rolle mit den entsprechenden Berechtigungen verwenden.

Um alle Tabellen in einem Schema zu klassifizieren und System-Tags auf jede Spalte in jeder im Schema enthaltenen Tabelle zu setzen, führen Sie die folgenden Schritte in Snowsight aus:

  1. Lösen Sie die Klassifizierung aus, und taggen Sie die Tabellen im Schema:

    1. Navigieren Sie in Snowsight mit dem Objekt-Explorer zu dem von Ihnen ausgewählten Schema.

    2. Wählen Sie im Menü More () die Option Classify Data aus.

    3. Wählen Sie ein Warehouse aus, und aktivieren Sie die Option Auto-tagging data.

    4. Wählen Sie Classify Data and Apply Tags aus.

      Sie können diese Option auswählen, um eine Tabelle erneut zu klassifizieren, die zuvor klassifiziert wurde.

    Snowsight klassifiziert bis zu 1.000 Tabellen gleichzeitig. Wenn Ihr Schema mehr als 1.000 Tabellen enthält, führen Sie diese Prozedur zuerst für den ersten Batch von Tabellen durch und wiederholen Sie dann die Prozedur für die restlichen Tabellen.

    Alternativ können Sie auch ein Arbeitsblatt (Worksheet) öffnen und SYSTEM$CLASSIFY_SCHEMA aufrufen, wie unter Verwenden von SQL zum Klassifizieren der Tabellen in einem Schema gezeigt wird. Wenn Sie diese Option wählen, navigieren Sie nach dem Aufrufen dieser gespeicherten Prozedur im Objekt-Explorer zurück zum Schema.

  2. Warten Sie, bis der Klassifizierungsprozess abgeschlossen ist. Wenn der Vorgang abgeschlossen ist, wird in der Spalte CLASSIFICATION ein grünes Häkchen angezeigt.

  3. Wählen Sie View Results aus.

    Wenn Sie sich entscheiden, die Option Auto-tagging data für das automatische Tagging zu deaktivieren, dann wählen Sie Review Classification aus, werten Sie die Ergebnisse aus, und bestimmen Sie den Tag-Wert, der auf jede Spalte gesetzt werden soll.

    Um die Tags anzuzeigen, die auf der Registerkarte Column details auf die Spalten gesetzt sind, verwenden Sie eine Rolle, die über die IMPORTED PRIVILEGES-Berechtigung für die SNOWFLAKE-Datenbank verfügt.

  4. Werten Sie die Spalte VALUE TO BE APPLIED aus, ändern Sie den Tag-Wert nach Bedarf, und wählen Sie dann Complete classification aus.

  5. Auf der Registerkarte Tables wird Classification results reviewed and applied (Klassifizierungsergebnisse geprüft und angewendet) angezeigt. Sie können die Tag-Zuweisungen wie folgt bestätigen:

    1. Wählen Sie die Tabelle aus.

    2. Navigieren Sie zur Registerkarte Columns.

    3. Prüfen Sie die Spalte TAGS.

    Alternativ können Sie auch Folgendes tun:

    1. Verwenden Sie ein Arbeitsblatt, um die Information Schema-Tabellenfunktion TAG_REFERENCES_ALL_COLUMNS aufzurufen und die Tag-Zuweisungen für eine Spalte in einer bestimmten Tabelle anzuzeigen. Weitere Optionen finden Sie unter Tracking von System-Tags.

    2. Überprüfen Sie die Datensätze in der Account Usage-Ansicht DATA_CLASSIFICATION_LATEST, indem Sie entweder mit dem Objekt-Explorer zur Ansicht navigieren oder die Ansicht in einem Arbeitsblatt abfragen.

  6. Wiederholen Sie diese Schritte für andere Schemas, die zu klassifizierende Tabellen enthalten.