EXTRACT_SEMANTIC_CATEGORIES関数: 国際化タグの値¶
EXTRACT_SEMANTIC_CATEGORIES 関数は次のように動作します。
- 以前:
この関数の出力は次のような形式です。
{ "<col1_name>": { "extra_info" : { "alternates" : [<semantic_categories>], "probability" : "<number>" }, "privacy_category" : "<value>", "semantic_category" : "<value>" }, ... ... "<colN_name>": { "extra_info" : { "alternates" : [<semantic_categories>], "probability" : "<number>" }, "privacy_category" : "<value>", "semantic_category" : "<value>" } }
SNOWFLAKE.CORE.SEMANTIC_CATEGORY タグに使用可能な値は、 このセクション で定義されます。米国以外の国(つまり、
US_
)に対する SEMANTIC_CATEGORY タグの値は指定しません。- 現在:
この関数の出力はフォーマットが変更され、オーストラリア、カナダ、英国、米国に関連する SEMANTIC_CATEGORY タグ値がサポートされます。これらの国をサポートするために、タグの値は特定の 親カテゴリグループ に対応しています。親カテゴリには、その列の大半が1つの国の値で構成されているか、別の国の値で構成されているかなど、分類結果に関する情報が含まれます。
フォーマットの変更は、
extra_info
とprobability
フィールドを削除します。alternates
フィールドを出力内の別の位置に移動します。これらの新しいフィールドを追加します。
valid_value_ratio
。これは、サンプルサイズにおける有効な値の比率を指定します。無効な値には、 NULL、空の文字列、256文字を超える文字列などがあります。recommendation
。各タグと値に関する情報が含まれています。confidence
。ここで可能な値はHIGH
、MEDIUM
、LOW
のいずれかです。coverage
。これは、サンプリングされたセル値のうち、特定のカテゴリのルールに一致するパーセントを示します。details
。これは、 SEMANTIC_CATEGORY タグに地理タグ値を指定できるフィールドと値を含んでいます。
例:
{ "valid_value_ratio": 1.0, "recommendation": { "semantic_category": "PASSPORT", "privacy_category": "IDENTIFIER", "confidence": "HIGH", "coverage": 0.7, "details": [ { "semantic_category": "US_PASSPORT", "coverage": 0.7 }, { "semantic_category": "CA_PASSPORT", "coverage": 0.1 } ] }, "alternates": [ { "semantic_category": "NATIONAL_IDENTIFIER", "privacy_category": "IDENTIFIER", "confidence": "LOW", "coverage": 0.3, "details": [ { "semantic_category": "US_SSN", "privacy_category": "IDENTIFIER", "coverage": 0.3 } ] } ] }
次のテーブルは、分類タグ、新しいカテゴリグループとグループメンバー、およびサポートされている国の関係をまとめたものです。国名コードは、 ISO-3166-1 alpha-2 規格に基づいています。EMAIL や GENDER のような他のセマンティックカテゴリは影響を受けません。
PRIVACY_CATEGORY タグ値
SEMANTIC_CATEGORY タグ値(親グループ)
グループメンバー
国名コード
IDENTIFIER
BANK_ACCOUNT
CA_BANK_ACCOUNT
.US_BANK_ACCOUNT
.IBAN
CA . US
ORGANIZATION_IDENTIFIER
AU_BUSINESS_NUMBER
.AU_COMPANY_NUMBER
AU
DRIVERS_LICENSE
AU_DRIVERS_LICENSE
.CA_DRIVERS_LICENSE
.US_DRIVERS_LICENSE
AU . CA . US
MEDICARE_NUMBER
AU_MEDICARE_NUMBER
AU
PASSPORT
AU_PASSPORT
.CA_PASSPORT
.US_PASSPORT
AU . CA . US
PHONE_NUMBER
AU_PHONE_NUMBER
.CA_PHONE_NUMBER
.UK_PHONE_NUMBER
.US_PHONE_NUMBER
AU . CA . GB . US
STREET_ADDRESS
CA_STREET_ADDRESS
.US_STREET_ADDRESS
CA . US
TAX_IDENTIFIER
AU_TAX_NUMBER
AU
NATIONAL_IDENTIFIER
CA_SOCIAL_INSURANCE_NUMBER
.UK_NATIONAL_INSURANCE_NUMBER
.US_SSN
CA . GB . US
QUASI_IDENTIFIER
CITY
US_CITY
.CA_CITY
.US . CA .
POSTAL_CODE
AU_POSTAL_CODE
.CA_POSTAL_CODE
.UK_POSTAL_CODE
.US_POSTAL_CODE
AU . CA . GB . US
ADMINISTRATIVE_AREA_1
CA_PROVINCE_OR_TERRITORY
.US_STATE_OR_TERRITORY
CA . US
ADMINISTRATIVE_AREA_2
US_COUNTY
US
データエンジニアは、 ALTER TABLE または ALTER VIEW ステートメントでタグ値を手動で指定すると、保留中のタグ値を使用できます。あるいは、データエンジニアが ASSOCIATE_SEMANTIC_CATEGORY_TAGS ストアドプロシージャを呼び出してタグを設定することもできます。
たとえば、 ALTER TABLE ステートメントを使用して、 PASSPORT テーブル列に
PASSPORT
タグ値を手動で設定します。ALTER TABLE mydb.myschema.mytable MODIFY COLUMN passport SET TAG SNOWFLAKE.CORE.SEMANTIC_CATEGORY = 'PASSPORT';
全体的な分類プロセスや、テーブル、スキーマ内の全テーブル、データベース内の全テーブルを分類する ステップ に変更はありません。
Tip
ASSOCIATE_SEMANTIC_CATEGORY_TAGS ストアドプロシージャの引数として EXTRACT_SEMANTIC_CATEGORIES 関数を渡す場合は、保留中のフォーマット変更によってワークフローが壊れることがないように、設定したカスタム処理を再確認してください。
参照: 1110