Funktion EXTRACT_SEMANTIC_CATEGORIES: Internationale Tag-Werte

Achtung

Diese Verhaltensänderung ist in Bundle 2023_05 enthalten.

Den aktuellen Status des Bundles finden Sie unter Bundle-Verlauf.

Die Funktion EXTRACT_SEMANTIC_CATEGORIES verhält sich wie folgt:

Bisher:

Die Ausgabe der Funktion hat folgende Form:

{
    "<col1_name>": {
    "extra_info" : {
        "alternates" : [<semantic_categories>],
        "probability" : "<number>"
    },
    "privacy_category" : "<value>",
    "semantic_category" : "<value>"
    },
...
...
    "<colN_name>": {
    "extra_info" : {
        "alternates" : [<semantic_categories>],
        "probability" : "<number>"
    },
    "privacy_category" : "<value>",
    "semantic_category" : "<value>"
    }
}
Copy

Die möglichen Werte für das Tag SNOWFLAKE.CORE.SEMANTIC_CATEGORY sind in diesem Abschnitt definiert, der keine SEMANTIC_CATEGORY-Tag-Werte für andere Länder als die USA angibt (d. h. US_).

Jetzt:

Die Ausgabe der Funktion wird sich in ihrer Formatierung ändern, und die Ausgabe wird Unterstützung für SEMANTIC_CATEGORY-Tag-Werte enthalten, die für Australien, Kanada, das Vereinigte Königreich und die USA gelten. Um diese Länder zu unterstützen, entsprechen die Tag-Werte bestimmten übergeordneten Kategoriegruppen. Eine übergeordnete Kategorie enthält Informationen zum Klassifizierungsergebnis, einschließlich der Angabe, ob die Spalte hauptsächlich aus Werten aus dem einen oder anderen Land besteht.

Folgende Formatierungsänderungen werden vorgenommen:

  • Entfernen der Felder extra_info und probability

  • Verschieben von Feld alternates an eine andere Position in der Ausgabe

  • Hinzufügen der folgenden neuen Felder:

    • valid_value_ratio – Gibt das Verhältnis der gültigen Werte im Stichprobenumfang an. Zu den ungültigen Werten zählen NULL, leere Zeichenfolgen und Zeichenfolgen mit mehr als 256 Zeichen.

    • recommendation – Enthält Informationen zu jedem Tag und Wert.

    • confidence – Mögliche Werte sind HIGH, MEDIUM oder LOW sind.

    • coverage – Gibt den Prozentsatz der Stichprobenwerte in den Zellen an, die mit den Regeln einer bestimmten Kategorie übereinstimmen.

    • details – Enthält die Felder und Werte, die einen geografischen Tag-Wert für das Tag SEMANTIC_CATEGORY angeben können.

Beispiel:

{
  "valid_value_ratio": 1.0,
  "recommendation": {
    "semantic_category": "PASSPORT",
    "privacy_category": "IDENTIFIER",
    "confidence": "HIGH",
    "coverage": 0.7,
    "details": [
      {
        "semantic_category": "US_PASSPORT",
        "coverage": 0.7
      },
      {
        "semantic_category": "CA_PASSPORT",
        "coverage": 0.1
      }
    ]
  },
  "alternates": [
    {
      "semantic_category": "NATIONAL_IDENTIFIER",
      "privacy_category": "IDENTIFIER",
      "confidence": "LOW",
      "coverage": 0.3,
      "details": [
        {
          "semantic_category": "US_SSN",
          "privacy_category": "IDENTIFIER",
          "coverage": 0.3
        }
      ]
    }
  ]
}
Copy

Die folgende Tabelle fasst die Beziehung zwischen den Klassifizierungs-Tags, den neuen Kategoriegruppen und Gruppenmitgliedern sowie den unterstützten Ländern zusammen. Die Ländercodes basieren auf dem Standard ISO 3166-1 ALPHA-2. Andere semantische Kategorien, wie EMAIL und GENDER, sind davon nicht betroffen.

PRIVACY_CATEGORY-Tag-Werte

SEMANTIC_CATEGORY-Tag-Werte (übergeordnete Gruppe)

Gruppenmitglieder

Ländercode

IDENTIFIER

BANK_ACCOUNT

CA_BANK_ACCOUNT . US_BANK_ACCOUNT . IBAN

CA . US

ORGANIZATION_IDENTIFIER

AU_BUSINESS_NUMBER . AU_COMPANY_NUMBER

AU

DRIVERS_LICENSE

AU_DRIVERS_LICENSE . CA_DRIVERS_LICENSE . US_DRIVERS_LICENSE

AU . CA . US

MEDICARE_NUMBER

AU_MEDICARE_NUMBER

AU

PASSPORT

AU_PASSPORT . CA_PASSPORT . US_PASSPORT

AU . CA . US

PHONE_NUMBER

AU_PHONE_NUMBER . CA_PHONE_NUMBER . UK_PHONE_NUMBER . US_PHONE_NUMBER

AU . CA . GB . US

STREET_ADDRESS

CA_STREET_ADDRESS . US_STREET_ADDRESS

CA . US

TAX_IDENTIFIER

AU_TAX_NUMBER

AU

NATIONAL_IDENTIFIER

CA_SOCIAL_INSURANCE_NUMBER . UK_NATIONAL_INSURANCE_NUMBER . US_SSN

CA . GB . US

QUASI_IDENTIFIER

CITY

US_CITY . CA_CITY .

US . CA .

POSTAL_CODE

AU_POSTAL_CODE . CA_POSTAL_CODE . UK_POSTAL_CODE . US_POSTAL_CODE

AU . CA . GB . US

ADMINISTRATIVE_AREA_1

CA_PROVINCE_OR_TERRITORY . US_STATE_OR_TERRITORY

CA . US

ADMINISTRATIVE_AREA_2

US_COUNTY

US

Data Engineers können die ausstehenden Tag-Werte verwenden, indem sie den Tag-Wert manuell in der Anweisung ALTER TABLE oder ALTER VIEW angeben. Alternativ können Data Engineers auch die gespeicherte Prozedur ASSOCIATE_SEMANTIC_CATEGORY_TAGS aufrufen, um das Tag zu setzen.

Verwenden Sie z. B. eine ALTER TABLE-Anweisung, um den Tag-Wert PASSPORT in der Tabellenspalte PASSPORT manuell zu setzen.

ALTER TABLE mydb.myschema.mytable
  MODIFY COLUMN passport
  SET TAG SNOWFLAKE.CORE.SEMANTIC_CATEGORY = 'PASSPORT';
Copy

Es gibt keine Änderungen am gesamten Klassifizierungsprozess oder den Schritten zur Klassifizierung einer Tabelle, aller Tabellen in einem Schema oder aller Tabellen in einer Datenbank.

Tipp

Wenn Sie der gespeicherten Prozedur ASSOCIATE_SEMANTIC_CATEGORY_TAGS die Funktion EXTRACT_SEMANTIC_CATEGORIES als Argument übergeben, sollten Sie alle kundenspezifischen Konfigurationen noch einmal sorgfältig überprüfen, um sicherzustellen, dass Ihre Workflows nicht durch die anstehenden Formatierungsänderungen unterbrochen werden.

Ref.: 1110