Persönlich identifizierbare Informationen (PII) unkenntlich machen¶

Persönlich identifizierbare Informationen (Personally Identifiable Information, PII) umfassen Namen, Adressen, Telefonnummern, E-Mail-Adressen, Steueridentifikationsnummern und andere Daten, die (allein oder zusammen mit anderen Informationen) zur Identifizierung einer Person verwendet werden können. Die meisten Unternehmen haben gesetzliche und Compliance-Anforderungen an den Umgang mit PII-Daten. AI_REDACT ist eine vollständig verwaltete Cortex AI-Funktion, die Ihnen beim Maskieren von PII in unstrukturierten Textdaten unter Verwendung eines von Snowflake gehosteten großen Sprachmodells (Large Language Model, LLM) hilft, um PII zu identifizieren und durch Platzhalterwerte zu ersetzen.

AI_REDACT kann Ihnen dabei helfen, Text für Call-Center-Trainings, Stimmungsanalysen, versicherungsbezogene und medizinische Analysen sowie ML-Modelltraining (neben anderen Anwendungsfällen) vorzubereiten.

Tipp

Verwenden Sie AI_PARSE_DOCUMENT oder AI_TRANSCRIBE, um Dokument- oder Sprechdaten vor der Anwendung von AI_REDACT in Text umzuwandeln.

AI_REDACT¶

Die Funktion AI_REDACT ersetzt persönlich identifizierbare Informationen (PII) im Eingabetext durch Platzhalterwerte.

Wichtig

AI_REDACT führt die Maskierung auf bestmögliche Weise unter Verwendung von AI-Modellen aus. Überprüfen Sie stets das Ergebnis (bzw. die Ausgabe), um sicherzustellen, dass die Datenschutzrichtlinien Ihrer Organisation eingehalten werden. Informieren Sie Snowflake, wenn es AI_REDACT nicht gelingt, PII in Ihren Daten unkenntlich zu machen.

Regionale Verfügbarkeit¶

Siehe Regionale Verfügbarkeit.

Einschränkungen¶

Die Maskierung erfolgt anhand von AI-Modellen. Möglicherweise werden nicht alle persönlich identifizierbaren Informationen gefunden. Überprüfen Sie stets die Ausgabe, um sicherzustellen, dass die Datenschutzrichtlinien Ihrer Organisation eingehalten werden. Wenden Sie sich an den Snowflake-Support, wenn AI_REDACT bestimmte PII nicht maskieren kann.
Die Funktionen COUNT_TOKENS und AI_COUNT_TOKENS unterstützen AI_REDACT noch nicht.
Zum jetzigen Zeitpunkt funktioniert AI_REDACT am besten mit wohlgeformtem englischen Text. Die Leistung kann bei anderen Sprachen oder bei Text mit vielen Rechtschreib-, Interpunktions- oder Grammatikfehlern variieren.
AI_REDACT maskiert derzeit nur US-spezifische PII und einige PII in UK und Kanada, sofern dies in den Erkannte PII-Kategorien angegeben ist.
AI_REDACT ist derzeit bezüglich der Anzahl der Token beschränkt, die ein- und ausgegeben werden können. Die Ein- und Ausgabe können zusammen bis zu 4.096 Token umfassen. Die Ausgabe ist auf 1.024 Token begrenzt. Wenn der Eingabetext länger ist, teilen Sie ihn in kleinere Blöcke auf, und maskieren Sie jeden Block separat, z. B. mit SPLIT_TEXT_RECURSIVE_CHARACTER. Unter Chunking-Beispiel finden Sie ein Beispiel für das Ausblenden von Text, der die Token-Beschränkungen überschreitet.

Bemerkung

Ein Token ist die kleinste Dateneinheit, die vom AI-Modell verarbeitet wird. Bei englischen Texten gilt gemäß den Branchenrichtlinien ein Token als etwa vier Zeichen oder 0,75 Wörter.

Erkannte PII-Kategorien¶

AI_REDACT unterstützt die Maskierung der folgenden Kategorien von PII. Die Werte in der Spalte „Kategorie“ sind die Zeichenfolgen, die im optionalen categories-Argument unterstützt werden.

Kategorie

Anmerkungen

NAME

Erkennt den vollständigen Namen, den Vornamen, den zweiten Vornamen und den Nachnamen

EMAIL

PHONE_NUMBER

DATE_OF_BIRTH

GENDER

Erkennt männlich, weiblich und nicht-binär

AGE

ADDRESS

Erkennt:

vollständige Anschrift (US, UK, CA)

Straße und Hausnummer (US, UK, CA)

Postleitzahl (US, UK, CA)

Ort (US, UK, CA)

Bundesstaat (US) oder Provinz (CA)

County, Borough oder Township (US)

NATIONAL_ID

Identifiziert Sozialversicherungsnummern (US)

PASSPORT

Identifiziert Reisepassnummern (US, UK, CA)

TAX_IDENTIFIER

Identifiziert Individual Taxpayer Numbers (ITNs)

PAYMENT_CARD_DATA

Identifiziert vollständige Kartendaten, Kartennummer, Ablaufdatum und CVV

DRIVERS_LICENSE

Unterstützt US, UK, CA

IP_ADDRESS

Kategorie	Anmerkungen
NAME	Erkennt den vollständigen Namen, den Vornamen, den zweiten Vornamen und den Nachnamen
EMAIL
PHONE_NUMBER
DATE_OF_BIRTH
GENDER	Erkennt männlich, weiblich und nicht-binär
AGE
ADDRESS	Erkennt: vollständige Anschrift (US, UK, CA) Straße und Hausnummer (US, UK, CA) Postleitzahl (US, UK, CA) Ort (US, UK, CA) Bundesstaat (US) oder Provinz (CA) County, Borough oder Township (US)
NATIONAL_ID	Identifiziert Sozialversicherungsnummern (US)
PASSPORT	Identifiziert Reisepassnummern (US, UK, CA)
TAX_IDENTIFIER	Identifiziert Individual Taxpayer Numbers (ITNs)
PAYMENT_CARD_DATA	Identifiziert vollständige Kartendaten, Kartennummer, Ablaufdatum und CVV
DRIVERS_LICENSE	Unterstützt US, UK, CA
IP_ADDRESS

Bemerkung

AI_REDACT unterstützt teilweise Übereinstimmungen für einige PII-Kategorien. So reicht beispielsweise ein Vorname allein aus, um eine Redaktion mit dem [NAME]-Platzhalter auszulösen.

Fehlerbehandlung¶

Normalerweise gibt die AI_REDACT-Funktion einen Fehler aus, wenn sie den Eingabetext nicht verarbeiten kann. Wenn eine Abfrage mehrere Zeilen ausblendet, führt ein Fehler dazu, dass die gesamte Abfrage fehlschlägt. Um die Verarbeitung anderer Zeilen fortzusetzen, können Sie den Sitzungsparameter AI_SQL_ERROR_HANDLING_USE_FAIL_ON_ERROR auf FALSE festlegen. Bei Fehlern wird dann NULL zurückgegeben anstatt die Abfrage zu stoppen.

ALTER SESSION SET AI_SQL_ERROR_HANDLING_USE_FAIL_ON_ERROR=FALSE;

Copy

Wenn dieser Parameter auf FALSE festgelegt ist, können Sie auch TRUE als letztes Argument an AI_REDACT übergeben, wodurch der Rückgabewert ein OBJECT-Wert ist, der separate Felder für den redigierten Text und eine mögliche Fehlermeldung enthält. Eines dieser Felder ist NULL je nachdem, ob der AI_REDACT-Aufruf erfolgreich verarbeitet wurde.

Hinweise zu Kosten¶

AI_REDACT verursacht Kosten, die sich nach der Anzahl der verarbeiteten Eingabe- und Ausgabe-Token richten, wie bei anderen Cortex AI-Funktionen. Weitere Informationen dazu finden Sie in der Snowflake-Preisliste.

Beispiele¶

Grundlegende Beispiele¶

Bei folgendem Beispiel werden ein Name und eine Adresse aus dem Eingabetext maskiert.

SELECT AI_REDACT(
    input => 'My name is John Smith and I live at twenty third street, San Francisco.'
);

Copy

Ausgabe:

My name is [NAME] and I live at [ADDRESS]

Im folgenden Beispiel werden nur Namen und E-Mail-Adressen aus dem Eingabetext unkenntlich gemacht. Beachten Sie, dass der Text nur einen Vornamen enthält, der als [NAME] erkannt und redigiert wird. Der Eingabetext enthält keine E-Mail-Adresse, daher wird in der Ausgabe kein E-Mail-Platzhalter angezeigt.

SELECT AI_REDACT(
    input => 'My name is John and I live at twenty third street, San Francisco.',
    categories => ['NAME', 'EMAIL']
);

Copy

Ausgabe:

My name is [NAME] and I live at twenty third street, San Francisco.

End-to-End-Beispiel¶

Im folgenden Beispiel werden Zeilen aus einer Tabelle verarbeitet und die maskierte Ausgabe in eine andere Tabelle eingefügt. Sie könnten ähnlich vorgehen, um die maskierten Daten in einer Spalte einer bestehenden Tabelle zu speichern.

Nach der Maskierung wird der Text an AI_SENTIMENT übergeben, um Informationen zur allgemeinen Stimmung zu extrahieren.

-- Create a table with unredacted text
CREATE OR REPLACE TABLE raw_table AS
  SELECT 'My previous manager, Washington, used to live in Kirkland. His first name was Mike.' AS my_column
  UNION ALL
  SELECT 'My name is William and I live in San Francisco. You can reach me at (415).450.0973';

-- view unredacted data
SELECT * FROM raw_table;

-- Create a redaction table
CREATE OR REPLACE TABLE redaction_table (
  value VARCHAR
);

-- Redact PII from raw_table and insert into redaction_table
INSERT INTO redaction_table
SELECT AI_REDACT(my_column) AS value FROM raw_table;

-- view redacted results
SELECT * FROM redaction_table;

-- Run AI_SENTIMENT on redacted text
SELECT
    value AS redacted_text,
    AI_SENTIMENT(value) AS summary_sentiment
FROM redaction_table;

Copy

Beispiel für die Fehlerbehandlung¶

Dieses Beispiel, das auf dem vorangegangenen Beispiel basiert, zeigt, wie Fehler bei der Verarbeitung mehrerer Zeilen mit AI_REDACT behandelt werden. Es legt den Sitzungsparameter AI_SQL_ERROR_HANDLING_USE_FAIL_ON_ERROR fest und übergibt TRUE als letztes Argument an AI_REDACT. Dies führt dazu, dass die Funktion ein OBJECT mit separaten Feldern für den redigierten Text und eine Fehlermeldung zurückgibt, von der eine NULL ist, je nachdem, ob die Funktion erfolgreich war oder fehlgeschlagen ist.

ALTER SESSION SET AI_SQL_ERROR_HANDLING_USE_FAIL_ON_ERROR=FALSE;

-- Create a redaction table with columns for value and error message
CREATE OR REPLACE TABLE redaction_table (
  value VARCHAR,
  error VARCHAR
);

-- Redact PII from raw_table and insert into redaction_table
-- Both the redacted text and any error message are stored
INSERT INTO redaction_table
SELECT
  result:value::STRING AS value,
  result:error::STRING AS error
  FROM (SELECT AI_REDACT(my_column, TRUE) AS result FROM raw_table);

Copy

Chunking-Beispiel¶

Dieses Beispiel veranschaulicht, wie Sie PII in umfangreichem Text redigieren können, indem der Text in kleinere Blöcke aufgeteilt, jeder Block separat ausgeblendet wird und dann die ausgeblendeten Blöcke in der endgültigen Ausgabe wieder kombiniert werden. Dieser Ansatz funktioniert im Rahmen der Token-Beschränkungen von AI_REDACT.

CREATE OR REPLACE TABLE patients (
    patient_id INT PRIMARY KEY,
    patient_notes text
);

CREATE OR REPLACE TABLE final_temp_table AS
WITH chunked_data AS (
    -- Step 1: Split text into chunks
    SELECT
        patient_id,
        chunk.value AS chunk_text,
        chunk.index AS chunk_index
    FROM
        patients,
        LATERAL FLATTEN(
            input => SNOWFLAKE.CORTEX.SPLIT_TEXT_RECURSIVE_CHARACTER(
                patient_notes,
                'none',
                1000
            )
        ) AS chunk
    WHERE
        patient_notes IS NOT NULL
        AND LENGTH(patient_notes) > 0
),
redacted_chunks AS (
    -- Step 2: Apply AI_REDACT to each chunk
  SELECT
  patient_id,
        chunk_index,
        chunk_text,
        TO_VARIANT(results:value) AS redacted_chunk,
        TO_VARIANT(results:error) AS error_string
        from (
    SELECT
        patient_id,
        chunk_index,
        chunk_text,
        AI_REDACT(chunk_text,TRUE) AS results
    FROM
        chunked_data
)
),

-- Step 3: Concatenate redacted chunks
final AS (
SELECT
chunk_text as original,
IFF(error_string IS NOT NULL, chunk_text, redacted_chunk) AS redacted_text,
patient_id,
chunk_index
FROM
    redacted_chunks
)
SELECT * FROM final;

SELECT
  patient_id,
  LISTAGG(redacted_text, '') WITHIN GROUP (ORDER BY chunk_index) AS full_output
  FROM final_temp_table
  GROUP BY patient_id;

Copy

Rechtliche Hinweise¶

Die Datenklassifizierung der Eingaben und Ausgaben ist in der folgenden Tabelle aufgeführt.

Klassifizierung von Eingabedaten	Klassifizierung von Ausgabedaten	Benennung
Usage Data	Customer Data	Die allgemein verfügbaren Funktionen sind abgedeckte AI-Features. Die Vorschaufunktionen sind Vorschau-AI-Features. [1]

Weitere Informationen dazu finden Sie unter KI und ML in Snowflake.