EXTRACT_SEMANTIC_CATEGORIES関数: 国際化タグの値¶
EXTRACT_SEMANTIC_CATEGORIES 関数は次のように動作します。
- 以前:
この関数の出力は次のような形式です。
{ "<col1_name>": { "extra_info" : { "alternates" : [<semantic_categories>], "probability" : "<number>" }, "privacy_category" : "<value>", "semantic_category" : "<value>" }, ... ... "<colN_name>": { "extra_info" : { "alternates" : [<semantic_categories>], "probability" : "<number>" }, "privacy_category" : "<value>", "semantic_category" : "<value>" } }
SNOWFLAKE.CORE.SEMANTIC_CATEGORY タグに使用可能な値は、 このセクション で定義されます。米国以外の国(つまり、
US_)に対する SEMANTIC_CATEGORY タグの値は指定しません。- 現在:
この関数の出力はフォーマットが変更され、オーストラリア、カナダ、英国、米国に関連する SEMANTIC_CATEGORY タグ値がサポートされます。これらの国をサポートするために、タグの値は特定の 親カテゴリグループ に対応しています。親カテゴリには、その列の大半が1つの国の値で構成されているか、別の国の値で構成されているかなど、分類結果に関する情報が含まれます。
フォーマットの変更は、
extra_infoとprobabilityフィールドを削除します。alternatesフィールドを出力内の別の位置に移動します。これらの新しいフィールドを追加します。
valid_value_ratio。これは、サンプルサイズにおける有効な値の比率を指定します。無効な値には、 NULL、空の文字列、256文字を超える文字列などがあります。recommendation。各タグと値に関する情報が含まれています。confidence。ここで可能な値はHIGH、MEDIUM、LOWのいずれかです。coverage。これは、サンプリングされたセル値のうち、特定のカテゴリのルールに一致するパーセントを示します。details。これは、 SEMANTIC_CATEGORY タグに地理タグ値を指定できるフィールドと値を含んでいます。
例:
{ "valid_value_ratio": 1.0, "recommendation": { "semantic_category": "PASSPORT", "privacy_category": "IDENTIFIER", "confidence": "HIGH", "coverage": 0.7, "details": [ { "semantic_category": "US_PASSPORT", "coverage": 0.7 }, { "semantic_category": "CA_PASSPORT", "coverage": 0.1 } ] }, "alternates": [ { "semantic_category": "NATIONAL_IDENTIFIER", "privacy_category": "IDENTIFIER", "confidence": "LOW", "coverage": 0.3, "details": [ { "semantic_category": "US_SSN", "privacy_category": "IDENTIFIER", "coverage": 0.3 } ] } ] }
次のテーブルは、分類タグ、新しいカテゴリグループとグループメンバー、およびサポートされている国の関係をまとめたものです。国名コードは、 ISO-3166-1 alpha-2 規格に基づいています。EMAIL や GENDER のような他のセマンティックカテゴリは影響を受けません。
PRIVACY_CATEGORY タグ値
SEMANTIC_CATEGORY タグ値(親グループ)
グループメンバー
国名コード
IDENTIFIERBANK_ACCOUNTCA_BANK_ACCOUNT.US_BANK_ACCOUNT.IBANCA . US
ORGANIZATION_IDENTIFIERAU_BUSINESS_NUMBER.AU_COMPANY_NUMBERAU
DRIVERS_LICENSEAU_DRIVERS_LICENSE.CA_DRIVERS_LICENSE.US_DRIVERS_LICENSEAU . CA . US
MEDICARE_NUMBERAU_MEDICARE_NUMBERAU
PASSPORTAU_PASSPORT.CA_PASSPORT.US_PASSPORTAU . CA . US
PHONE_NUMBERAU_PHONE_NUMBER.CA_PHONE_NUMBER.UK_PHONE_NUMBER.US_PHONE_NUMBERAU . CA . GB . US
STREET_ADDRESSCA_STREET_ADDRESS.US_STREET_ADDRESSCA . US
TAX_IDENTIFIERAU_TAX_NUMBERAU
NATIONAL_IDENTIFIERCA_SOCIAL_INSURANCE_NUMBER.UK_NATIONAL_INSURANCE_NUMBER.US_SSNCA . GB . US
QUASI_IDENTIFIERCITYUS_CITY.CA_CITY.US . CA .
POSTAL_CODEAU_POSTAL_CODE.CA_POSTAL_CODE.UK_POSTAL_CODE.US_POSTAL_CODEAU . CA . GB . US
ADMINISTRATIVE_AREA_1CA_PROVINCE_OR_TERRITORY.US_STATE_OR_TERRITORYCA . US
ADMINISTRATIVE_AREA_2US_COUNTYUS
データエンジニアは、 ALTER TABLE または ALTER VIEW ステートメントでタグ値を手動で指定すると、保留中のタグ値を使用できます。あるいは、データエンジニアが ASSOCIATE_SEMANTIC_CATEGORY_TAGS ストアドプロシージャを呼び出してタグを設定することもできます。
たとえば、 ALTER TABLE ステートメントを使用して、 PASSPORT テーブル列に
PASSPORTタグ値を手動で設定します。ALTER TABLE mydb.myschema.mytable MODIFY COLUMN passport SET TAG SNOWFLAKE.CORE.SEMANTIC_CATEGORY = 'PASSPORT';
全体的な分類プロセスや、テーブル、スキーマ内の全テーブル、データベース内の全テーブルを分類する ステップ に変更はありません。
Tip
ASSOCIATE_SEMANTIC_CATEGORY_TAGS ストアドプロシージャの引数として EXTRACT_SEMANTIC_CATEGORIES 関数を渡す場合は、保留中のフォーマット変更によってワークフローが壊れることがないように、設定したカスタム処理を再確認してください。
参照: 1110