EXTRACT_SEMANTIC_CATEGORIES関数: 国際化タグの値

注意

この動作変更は2023_05バンドルにあります。

バンドルの現在のステータスについては、 バンドル履歴 をご参照ください。

EXTRACT_SEMANTIC_CATEGORIES 関数は次のように動作します。

以前

この関数の出力は次のような形式です。

{
    "<col1_name>": {
    "extra_info" : {
        "alternates" : [<semantic_categories>],
        "probability" : "<number>"
    },
    "privacy_category" : "<value>",
    "semantic_category" : "<value>"
    },
...
...
    "<colN_name>": {
    "extra_info" : {
        "alternates" : [<semantic_categories>],
        "probability" : "<number>"
    },
    "privacy_category" : "<value>",
    "semantic_category" : "<value>"
    }
}
Copy

SNOWFLAKE.CORE.SEMANTIC_CATEGORY タグに使用可能な値は、 このセクション で定義されます。米国以外の国(つまり、 US_)に対する SEMANTIC_CATEGORY タグの値は指定しません。

現在

この関数の出力はフォーマットが変更され、オーストラリア、カナダ、英国、米国に関連する SEMANTIC_CATEGORY タグ値がサポートされます。これらの国をサポートするために、タグの値は特定の 親カテゴリグループ に対応しています。親カテゴリには、その列の大半が1つの国の値で構成されているか、別の国の値で構成されているかなど、分類結果に関する情報が含まれます。

フォーマットの変更は、

  • extra_infoprobability フィールドを削除します。

  • alternates フィールドを出力内の別の位置に移動します。

  • これらの新しいフィールドを追加します。

    • valid_value_ratio。これは、サンプルサイズにおける有効な値の比率を指定します。無効な値には、 NULL、空の文字列、256文字を超える文字列などがあります。

    • recommendation。各タグと値に関する情報が含まれています。

    • confidence。ここで可能な値は HIGHMEDIUMLOW のいずれかです。

    • coverage。これは、サンプリングされたセル値のうち、特定のカテゴリのルールに一致するパーセントを示します。

    • details。これは、 SEMANTIC_CATEGORY タグに地理タグ値を指定できるフィールドと値を含んでいます。

例:

{
  "valid_value_ratio": 1.0,
  "recommendation": {
    "semantic_category": "PASSPORT",
    "privacy_category": "IDENTIFIER",
    "confidence": "HIGH",
    "coverage": 0.7,
    "details": [
      {
        "semantic_category": "US_PASSPORT",
        "coverage": 0.7
      },
      {
        "semantic_category": "CA_PASSPORT",
        "coverage": 0.1
      }
    ]
  },
  "alternates": [
    {
      "semantic_category": "NATIONAL_IDENTIFIER",
      "privacy_category": "IDENTIFIER",
      "confidence": "LOW",
      "coverage": 0.3,
      "details": [
        {
          "semantic_category": "US_SSN",
          "privacy_category": "IDENTIFIER",
          "coverage": 0.3
        }
      ]
    }
  ]
}
Copy

次のテーブルは、分類タグ、新しいカテゴリグループとグループメンバー、およびサポートされている国の関係をまとめたものです。国名コードは、 ISO-3166-1 alpha-2 規格に基づいています。EMAIL や GENDER のような他のセマンティックカテゴリは影響を受けません。

PRIVACY_CATEGORY タグ値

SEMANTIC_CATEGORY タグ値(親グループ)

グループメンバー

国名コード

IDENTIFIER

BANK_ACCOUNT

CA_BANK_ACCOUNT . US_BANK_ACCOUNT . IBAN

CA . US

ORGANIZATION_IDENTIFIER

AU_BUSINESS_NUMBER . AU_COMPANY_NUMBER

AU

DRIVERS_LICENSE

AU_DRIVERS_LICENSE . CA_DRIVERS_LICENSE . US_DRIVERS_LICENSE

AU . CA . US

MEDICARE_NUMBER

AU_MEDICARE_NUMBER

AU

PASSPORT

AU_PASSPORT . CA_PASSPORT . US_PASSPORT

AU . CA . US

PHONE_NUMBER

AU_PHONE_NUMBER . CA_PHONE_NUMBER . UK_PHONE_NUMBER . US_PHONE_NUMBER

AU . CA . GB . US

STREET_ADDRESS

CA_STREET_ADDRESS . US_STREET_ADDRESS

CA . US

TAX_IDENTIFIER

AU_TAX_NUMBER

AU

NATIONAL_IDENTIFIER

CA_SOCIAL_INSURANCE_NUMBER . UK_NATIONAL_INSURANCE_NUMBER . US_SSN

CA . GB . US

QUASI_IDENTIFIER

CITY

US_CITY . CA_CITY .

US . CA .

POSTAL_CODE

AU_POSTAL_CODE . CA_POSTAL_CODE . UK_POSTAL_CODE . US_POSTAL_CODE

AU . CA . GB . US

ADMINISTRATIVE_AREA_1

CA_PROVINCE_OR_TERRITORY . US_STATE_OR_TERRITORY

CA . US

ADMINISTRATIVE_AREA_2

US_COUNTY

US

データエンジニアは、 ALTER TABLE または ALTER VIEW ステートメントでタグ値を手動で指定すると、保留中のタグ値を使用できます。あるいは、データエンジニアが ASSOCIATE_SEMANTIC_CATEGORY_TAGS ストアドプロシージャを呼び出してタグを設定することもできます。

たとえば、 ALTER TABLE ステートメントを使用して、 PASSPORT テーブル列に PASSPORT タグ値を手動で設定します。

ALTER TABLE mydb.myschema.mytable
  MODIFY COLUMN passport
  SET TAG SNOWFLAKE.CORE.SEMANTIC_CATEGORY = 'PASSPORT';
Copy

全体的な 分類プロセス や、テーブル、スキーマ内の全テーブル、データベース内の全テーブルを分類する ステップ に変更はありません。

ちなみに

ASSOCIATE_SEMANTIC_CATEGORY_TAGS ストアドプロシージャの引数として EXTRACT_SEMANTIC_CATEGORIES 関数を渡す場合は、保留中のフォーマット変更によってワークフローが壊れることがないように、設定したカスタム処理を再確認してください。

参照: 1110