Funktion EXTRACT_SEMANTIC_CATEGORIES: Internationale Tag-Werte¶
Achtung
Diese Verhaltensänderung ist in Bundle 2023_05 enthalten.
Den aktuellen Status des Bundles finden Sie unter Bundle-Verlauf.
Die Funktion EXTRACT_SEMANTIC_CATEGORIES verhält sich wie folgt:
- Bisher:
Die Ausgabe der Funktion hat folgende Form:
{ "<col1_name>": { "extra_info" : { "alternates" : [<semantic_categories>], "probability" : "<number>" }, "privacy_category" : "<value>", "semantic_category" : "<value>" }, ... ... "<colN_name>": { "extra_info" : { "alternates" : [<semantic_categories>], "probability" : "<number>" }, "privacy_category" : "<value>", "semantic_category" : "<value>" } }
Die möglichen Werte für das Tag SNOWFLAKE.CORE.SEMANTIC_CATEGORY sind in diesem Abschnitt definiert, der keine SEMANTIC_CATEGORY-Tag-Werte für andere Länder als die USA angibt (d. h.
US_
).- Jetzt:
Die Ausgabe der Funktion wird sich in ihrer Formatierung ändern, und die Ausgabe wird Unterstützung für SEMANTIC_CATEGORY-Tag-Werte enthalten, die für Australien, Kanada, das Vereinigte Königreich und die USA gelten. Um diese Länder zu unterstützen, entsprechen die Tag-Werte bestimmten übergeordneten Kategoriegruppen. Eine übergeordnete Kategorie enthält Informationen zum Klassifizierungsergebnis, einschließlich der Angabe, ob die Spalte hauptsächlich aus Werten aus dem einen oder anderen Land besteht.
Folgende Formatierungsänderungen werden vorgenommen:
Entfernen der Felder
extra_info
undprobability
Verschieben von Feld
alternates
an eine andere Position in der AusgabeHinzufügen der folgenden neuen Felder:
valid_value_ratio
– Gibt das Verhältnis der gültigen Werte im Stichprobenumfang an. Zu den ungültigen Werten zählen NULL, leere Zeichenfolgen und Zeichenfolgen mit mehr als 256 Zeichen.recommendation
– Enthält Informationen zu jedem Tag und Wert.confidence
– Mögliche Werte sindHIGH
,MEDIUM
oderLOW
sind.coverage
– Gibt den Prozentsatz der Stichprobenwerte in den Zellen an, die mit den Regeln einer bestimmten Kategorie übereinstimmen.details
– Enthält die Felder und Werte, die einen geografischen Tag-Wert für das Tag SEMANTIC_CATEGORY angeben können.
Beispiel:
{ "valid_value_ratio": 1.0, "recommendation": { "semantic_category": "PASSPORT", "privacy_category": "IDENTIFIER", "confidence": "HIGH", "coverage": 0.7, "details": [ { "semantic_category": "US_PASSPORT", "coverage": 0.7 }, { "semantic_category": "CA_PASSPORT", "coverage": 0.1 } ] }, "alternates": [ { "semantic_category": "NATIONAL_IDENTIFIER", "privacy_category": "IDENTIFIER", "confidence": "LOW", "coverage": 0.3, "details": [ { "semantic_category": "US_SSN", "privacy_category": "IDENTIFIER", "coverage": 0.3 } ] } ] }
Die folgende Tabelle fasst die Beziehung zwischen den Klassifizierungs-Tags, den neuen Kategoriegruppen und Gruppenmitgliedern sowie den unterstützten Ländern zusammen. Die Ländercodes basieren auf dem Standard ISO 3166-1 ALPHA-2. Andere semantische Kategorien, wie EMAIL und GENDER, sind davon nicht betroffen.
PRIVACY_CATEGORY-Tag-Werte
SEMANTIC_CATEGORY-Tag-Werte (übergeordnete Gruppe)
Gruppenmitglieder
Ländercode
IDENTIFIER
BANK_ACCOUNT
CA_BANK_ACCOUNT
.US_BANK_ACCOUNT
.IBAN
CA . US
ORGANIZATION_IDENTIFIER
AU_BUSINESS_NUMBER
.AU_COMPANY_NUMBER
AU
DRIVERS_LICENSE
AU_DRIVERS_LICENSE
.CA_DRIVERS_LICENSE
.US_DRIVERS_LICENSE
AU . CA . US
MEDICARE_NUMBER
AU_MEDICARE_NUMBER
AU
PASSPORT
AU_PASSPORT
.CA_PASSPORT
.US_PASSPORT
AU . CA . US
PHONE_NUMBER
AU_PHONE_NUMBER
.CA_PHONE_NUMBER
.UK_PHONE_NUMBER
.US_PHONE_NUMBER
AU . CA . GB . US
STREET_ADDRESS
CA_STREET_ADDRESS
.US_STREET_ADDRESS
CA . US
TAX_IDENTIFIER
AU_TAX_NUMBER
AU
NATIONAL_IDENTIFIER
CA_SOCIAL_INSURANCE_NUMBER
.UK_NATIONAL_INSURANCE_NUMBER
.US_SSN
CA . GB . US
QUASI_IDENTIFIER
CITY
US_CITY
.CA_CITY
.US . CA .
POSTAL_CODE
AU_POSTAL_CODE
.CA_POSTAL_CODE
.UK_POSTAL_CODE
.US_POSTAL_CODE
AU . CA . GB . US
ADMINISTRATIVE_AREA_1
CA_PROVINCE_OR_TERRITORY
.US_STATE_OR_TERRITORY
CA . US
ADMINISTRATIVE_AREA_2
US_COUNTY
US
Data Engineers können die ausstehenden Tag-Werte verwenden, indem sie den Tag-Wert manuell in der Anweisung ALTER TABLE oder ALTER VIEW angeben. Alternativ können Data Engineers auch die gespeicherte Prozedur ASSOCIATE_SEMANTIC_CATEGORY_TAGS aufrufen, um das Tag zu setzen.
Verwenden Sie z. B. eine ALTER TABLE-Anweisung, um den Tag-Wert
PASSPORT
in der Tabellenspalte PASSPORT manuell zu setzen.ALTER TABLE mydb.myschema.mytable MODIFY COLUMN passport SET TAG SNOWFLAKE.CORE.SEMANTIC_CATEGORY = 'PASSPORT';
Es gibt keine Änderungen am gesamten Klassifizierungsprozess oder den Schritten zur Klassifizierung einer Tabelle, aller Tabellen in einem Schema oder aller Tabellen in einer Datenbank.
Tipp
Wenn Sie der gespeicherten Prozedur ASSOCIATE_SEMANTIC_CATEGORY_TAGS die Funktion EXTRACT_SEMANTIC_CATEGORIES als Argument übergeben, sollten Sie alle kundenspezifischen Konfigurationen noch einmal sorgfältig überprüfen, um sicherzustellen, dass Ihre Workflows nicht durch die anstehenden Formatierungsänderungen unterbrochen werden.
Ref.: 1110