EXTRACT_SEMANTIC_CATEGORIES 함수: 국제 태그 값

주의

이 동작 변경 사항은 2023_05 번들에 있습니다.

번들의 현재 상태는 번들 기록 섹션을 참조하십시오.

EXTRACT_SEMANTIC_CATEGORIES 함수는 다음과 같이 작동합니다.

이전:

함수의 출력은 다음 형식을 띱니다.

{
    "<col1_name>": {
    "extra_info" : {
        "alternates" : [<semantic_categories>],
        "probability" : "<number>"
    },
    "privacy_category" : "<value>",
    "semantic_category" : "<value>"
    },
...
...
    "<colN_name>": {
    "extra_info" : {
        "alternates" : [<semantic_categories>],
        "probability" : "<number>"
    },
    "privacy_category" : "<value>",
    "semantic_category" : "<value>"
    }
}
Copy

SNOWFLAKE.CORE.SEMANTIC_CATEGORY 태그에 사용할 수 있는 값은 이 섹션 에 정의되어 있으며, 이는 미국(즉, US_) 이외의 국가에 대한 SEMANTIC_CATEGORY 태그 값을 지정하지 않습니다.

현재:

함수 출력은 형식 지정 과정에서 변경되며 이 출력에는 호주, 캐나다, 영국, 미국과 관련된 SEMANTIC_CATEGORY 태그 값에 대한 지원이 포함됩니다. 이러한 국가를 지원하기 위해 태그 값은 특정 상위 카테고리 그룹 에 해당합니다. 상위 카테고리에는 열이 주로 한 국가 또는 다른 국가의 값으로 구성되어 있는지 여부를 포함하여, 분류 결과에 대한 정보가 포함됩니다.

형식 지정 변경 사항은 다음과 같습니다.

  • extra_infoprobability 필드를 제거합니다.

  • alternates 필드를 출력의 다른 위치로 이동합니다.

  • 다음 새 필드를 추가하십시오.

    • valid_value_ratio: 샘플 크기에서 유효한 값의 비율을 지정합니다. 유효하지 않은 값에는 NULL, 빈 문자열, 256자를 초과하는 문자열이 포함됩니다.

    • recommendation: 각 태그와 값에 대한 정보를 포함합니다.

    • confidence: 여기서 가능한 값은 HIGH, MEDIUM 또는 LOW 입니다.

    • coverage: 특정 카테고리에 대한 규칙과 일치하는 샘플링된 셀 값의 백분율을 나타냅니다.

    • details: SEMANTIC_CATEGORY 태그의 지리적 태그 값을 지정할 수 있는 필드와 값을 포함합니다.

예:

{
  "valid_value_ratio": 1.0,
  "recommendation": {
    "semantic_category": "PASSPORT",
    "privacy_category": "IDENTIFIER",
    "confidence": "HIGH",
    "coverage": 0.7,
    "details": [
      {
        "semantic_category": "US_PASSPORT",
        "coverage": 0.7
      },
      {
        "semantic_category": "CA_PASSPORT",
        "coverage": 0.1
      }
    ]
  },
  "alternates": [
    {
      "semantic_category": "NATIONAL_IDENTIFIER",
      "privacy_category": "IDENTIFIER",
      "confidence": "LOW",
      "coverage": 0.3,
      "details": [
        {
          "semantic_category": "US_SSN",
          "privacy_category": "IDENTIFIER",
          "coverage": 0.3
        }
      ]
    }
  ]
}
Copy

다음 표에는 분류 태그, 새 카테고리 그룹 및 그룹 구성원, 지원되는 국가 간의 관계가 요약되어 있습니다. 국가 코드는 ISO-3166-1 alpha-2 표준을 기반으로 합니다. EMAIL 및 GENDER와 같은 다른 의미 체계 카테고리는 영향을 받지 않습니다.

PRIVACY_CATEGORY 태그 값

SEMANTIC_CATEGORY 태그 값(상위 그룹)

그룹 구성원

국가 코드

IDENTIFIER

BANK_ACCOUNT

CA_BANK_ACCOUNT . US_BANK_ACCOUNT . IBAN

CA . US

ORGANIZATION_IDENTIFIER

AU_BUSINESS_NUMBER . AU_COMPANY_NUMBER

AU

DRIVERS_LICENSE

AU_DRIVERS_LICENSE . CA_DRIVERS_LICENSE . US_DRIVERS_LICENSE

AU . CA . US

MEDICARE_NUMBER

AU_MEDICARE_NUMBER

AU

PASSPORT

AU_PASSPORT . CA_PASSPORT . US_PASSPORT

AU . CA . US

PHONE_NUMBER

AU_PHONE_NUMBER . CA_PHONE_NUMBER . UK_PHONE_NUMBER . US_PHONE_NUMBER

AU . CA . GB . US

STREET_ADDRESS

CA_STREET_ADDRESS . US_STREET_ADDRESS

CA . US

TAX_IDENTIFIER

AU_TAX_NUMBER

AU

NATIONAL_IDENTIFIER

CA_SOCIAL_INSURANCE_NUMBER . UK_NATIONAL_INSURANCE_NUMBER . US_SSN

CA . GB . US

QUASI_IDENTIFIER

CITY

US_CITY . CA_CITY .

US . CA .

POSTAL_CODE

AU_POSTAL_CODE . CA_POSTAL_CODE . UK_POSTAL_CODE . US_POSTAL_CODE

AU . CA . GB . US

ADMINISTRATIVE_AREA_1

CA_PROVINCE_OR_TERRITORY . US_STATE_OR_TERRITORY

CA . US

ADMINISTRATIVE_AREA_2

US_COUNTY

US

데이터 엔지니어는 ALTER TABLE 또는 ALTER VIEW 문에 태그 값을 수동으로 지정하여 보류 중인 태그 값을 사용할 수 있습니다. 또는 데이터 엔지니어가 ASSOCIATE_SEMANTIC_CATEGORY_TAGS 저장 프로시저를 호출하여 태그를 설정할 수 있습니다.

예를 들어, ALTER TABLE 문을 사용하여 PASSPORT 테이블 열의 PASSPORT 태그 값을 수동으로 설정합니다.

ALTER TABLE mydb.myschema.mytable
  MODIFY COLUMN passport
  SET TAG SNOWFLAKE.CORE.SEMANTIC_CATEGORY = 'PASSPORT';
Copy

테이블, 스키마의 모든 테이블 또는 데이터베이스의 모든 테이블을 분류하는 전체 분류 프로세스 또는 단계 에는 변경 사항이 없습니다.

EXTRACT_SEMANTIC_CATEGORIES 함수를 ASSOCIATE_SEMANTIC_CATEGORY_TAGS 저장 프로시저에 대한 인자로 전달하는 경우 보류 중인 형식 지정 변경 사항으로 인해 워크플로가 중단되지 않도록 보장하려고 구성했을 수 있는 사용자 지정 처리를 다시 확인해야 합니다.

참조: 1110