Funktion EXTRACT_SEMANTIC_CATEGORIES: Internationale Tag-Werte¶
Achtung
Diese Verhaltensänderung ist in Bundle 2023_05 enthalten.
Den aktuellen Status des Bundles finden Sie unter Bundle-Verlauf.
Die Funktion EXTRACT_SEMANTIC_CATEGORIES verhält sich wie folgt:
- Bisher:
Die Ausgabe der Funktion hat folgende Form:
{ "<col1_name>": { "extra_info" : { "alternates" : [<semantic_categories>], "probability" : "<number>" }, "privacy_category" : "<value>", "semantic_category" : "<value>" }, ... ... "<colN_name>": { "extra_info" : { "alternates" : [<semantic_categories>], "probability" : "<number>" }, "privacy_category" : "<value>", "semantic_category" : "<value>" } }
Die möglichen Werte für das Tag SNOWFLAKE.CORE.SEMANTIC_CATEGORY sind in diesem Abschnitt definiert, der keine SEMANTIC_CATEGORY-Tag-Werte für andere Länder als die USA angibt (d. h.
US_).- Jetzt:
Die Ausgabe der Funktion wird sich in ihrer Formatierung ändern, und die Ausgabe wird Unterstützung für SEMANTIC_CATEGORY-Tag-Werte enthalten, die für Australien, Kanada, das Vereinigte Königreich und die USA gelten. Um diese Länder zu unterstützen, entsprechen die Tag-Werte bestimmten übergeordneten Kategoriegruppen. Eine übergeordnete Kategorie enthält Informationen zum Klassifizierungsergebnis, einschließlich der Angabe, ob die Spalte hauptsächlich aus Werten aus dem einen oder anderen Land besteht.
Folgende Formatierungsänderungen werden vorgenommen:
Entfernen der Felder
extra_infoundprobabilityVerschieben von Feld
alternatesan eine andere Position in der AusgabeHinzufügen der folgenden neuen Felder:
valid_value_ratio– Gibt das Verhältnis der gültigen Werte im Stichprobenumfang an. Zu den ungültigen Werten zählen NULL, leere Zeichenfolgen und Zeichenfolgen mit mehr als 256 Zeichen.recommendation– Enthält Informationen zu jedem Tag und Wert.confidence– Mögliche Werte sindHIGH,MEDIUModerLOWsind.coverage– Gibt den Prozentsatz der Stichprobenwerte in den Zellen an, die mit den Regeln einer bestimmten Kategorie übereinstimmen.details– Enthält die Felder und Werte, die einen geografischen Tag-Wert für das Tag SEMANTIC_CATEGORY angeben können.
Beispiel:
{ "valid_value_ratio": 1.0, "recommendation": { "semantic_category": "PASSPORT", "privacy_category": "IDENTIFIER", "confidence": "HIGH", "coverage": 0.7, "details": [ { "semantic_category": "US_PASSPORT", "coverage": 0.7 }, { "semantic_category": "CA_PASSPORT", "coverage": 0.1 } ] }, "alternates": [ { "semantic_category": "NATIONAL_IDENTIFIER", "privacy_category": "IDENTIFIER", "confidence": "LOW", "coverage": 0.3, "details": [ { "semantic_category": "US_SSN", "privacy_category": "IDENTIFIER", "coverage": 0.3 } ] } ] }
Die folgende Tabelle fasst die Beziehung zwischen den Klassifizierungs-Tags, den neuen Kategoriegruppen und Gruppenmitgliedern sowie den unterstützten Ländern zusammen. Die Ländercodes basieren auf dem Standard ISO 3166-1 ALPHA-2. Andere semantische Kategorien, wie EMAIL und GENDER, sind davon nicht betroffen.
PRIVACY_CATEGORY-Tag-Werte
SEMANTIC_CATEGORY-Tag-Werte (übergeordnete Gruppe)
Gruppenmitglieder
Ländercode
IDENTIFIERBANK_ACCOUNTCA_BANK_ACCOUNT.US_BANK_ACCOUNT.IBANCA . US
ORGANIZATION_IDENTIFIERAU_BUSINESS_NUMBER.AU_COMPANY_NUMBERAU
DRIVERS_LICENSEAU_DRIVERS_LICENSE.CA_DRIVERS_LICENSE.US_DRIVERS_LICENSEAU . CA . US
MEDICARE_NUMBERAU_MEDICARE_NUMBERAU
PASSPORTAU_PASSPORT.CA_PASSPORT.US_PASSPORTAU . CA . US
PHONE_NUMBERAU_PHONE_NUMBER.CA_PHONE_NUMBER.UK_PHONE_NUMBER.US_PHONE_NUMBERAU . CA . GB . US
STREET_ADDRESSCA_STREET_ADDRESS.US_STREET_ADDRESSCA . US
TAX_IDENTIFIERAU_TAX_NUMBERAU
NATIONAL_IDENTIFIERCA_SOCIAL_INSURANCE_NUMBER.UK_NATIONAL_INSURANCE_NUMBER.US_SSNCA . GB . US
QUASI_IDENTIFIERCITYUS_CITY.CA_CITY.US . CA .
POSTAL_CODEAU_POSTAL_CODE.CA_POSTAL_CODE.UK_POSTAL_CODE.US_POSTAL_CODEAU . CA . GB . US
ADMINISTRATIVE_AREA_1CA_PROVINCE_OR_TERRITORY.US_STATE_OR_TERRITORYCA . US
ADMINISTRATIVE_AREA_2US_COUNTYUS
Data Engineers können die ausstehenden Tag-Werte verwenden, indem sie den Tag-Wert manuell in der Anweisung ALTER TABLE oder ALTER VIEW angeben. Alternativ können Data Engineers auch die gespeicherte Prozedur ASSOCIATE_SEMANTIC_CATEGORY_TAGS aufrufen, um das Tag zu setzen.
Verwenden Sie z. B. eine ALTER TABLE-Anweisung, um den Tag-Wert
PASSPORTin der Tabellenspalte PASSPORT manuell zu setzen.ALTER TABLE mydb.myschema.mytable MODIFY COLUMN passport SET TAG SNOWFLAKE.CORE.SEMANTIC_CATEGORY = 'PASSPORT';
Es gibt keine Änderungen am gesamten Klassifizierungsprozess oder den Schritten zur Klassifizierung einer Tabelle, aller Tabellen in einem Schema oder aller Tabellen in einer Datenbank.
Tipp
Wenn Sie der gespeicherten Prozedur ASSOCIATE_SEMANTIC_CATEGORY_TAGS die Funktion EXTRACT_SEMANTIC_CATEGORIES als Argument übergeben, sollten Sie alle kundenspezifischen Konfigurationen noch einmal sorgfältig überprüfen, um sicherzustellen, dass Ihre Workflows nicht durch die anstehenden Formatierungsänderungen unterbrochen werden.
Ref.: 1110