Função EXTRACT_SEMANTIC_CATEGORIES: valores de tags internacionais¶
Atenção
Essa mudança de comportamento está no pacote 2023_05.
Para saber o status atual do pacote, consulte Histórico do pacote.
A função EXTRACT_SEMANTIC_CATEGORIES se comporta da seguinte maneira:
- Anteriormente:
A saída da função assume o seguinte formato:
{ "<col1_name>": { "extra_info" : { "alternates" : [<semantic_categories>], "probability" : "<number>" }, "privacy_category" : "<value>", "semantic_category" : "<value>" }, ... ... "<colN_name>": { "extra_info" : { "alternates" : [<semantic_categories>], "probability" : "<number>" }, "privacy_category" : "<value>", "semantic_category" : "<value>" } }
Os valores possíveis para a tag SNOWFLAKE.CORE.SEMANTIC_CATEGORY são definidos nesta seção, que não especifica valores de tag SEMANTIC_CATEGORY para outros países além dos Estados Unidos da América (ou seja,
US_).- Atualmente:
A saída da função mudará em sua formatação e incluirá suporte para valores de tag SEMANTIC_CATEGORY pertencentes à Austrália, Canadá, Reino Unido e Estados Unidos. Para oferecer suporte a esses países, os valores das tags correspondem a determinados grupos de categorias principais. Uma categoria principal contém informações sobre o resultado da classificação, incluindo se a coluna consiste principalmente em valores de um país ou de outro.
As alterações de formatação são:
Remova os campos
extra_infoeprobability.Mova o campo
alternatespara uma posição diferente na saída.Adicione estes novos campos:
valid_value_ratio, que especifica a proporção de valores válidos no tamanho da amostra. Valores inválidos incluem NULL, uma cadeia de caracteres vazia e uma cadeia de caracteres com mais de 256 caracteres.recommendation, que inclui informações sobre cada tag e valor.confidence, onde os valores possíveis sãoHIGH,MEDIUMouLOW.coverage, que indica a porcentagem de valores de células de amostra que correspondem às regras de uma categoria específica.details, que contém campos e valores que podem especificar um valor de tag geográfica para a tag SEMANTIC_CATEGORY.
Por exemplo:
{ "valid_value_ratio": 1.0, "recommendation": { "semantic_category": "PASSPORT", "privacy_category": "IDENTIFIER", "confidence": "HIGH", "coverage": 0.7, "details": [ { "semantic_category": "US_PASSPORT", "coverage": 0.7 }, { "semantic_category": "CA_PASSPORT", "coverage": 0.1 } ] }, "alternates": [ { "semantic_category": "NATIONAL_IDENTIFIER", "privacy_category": "IDENTIFIER", "confidence": "LOW", "coverage": 0.3, "details": [ { "semantic_category": "US_SSN", "privacy_category": "IDENTIFIER", "coverage": 0.3 } ] } ] }
A tabela a seguir resume o relacionamento entre as tags de classificação, novos grupos de categorias e membros do grupo e países com suporte. Os códigos de país são baseados no padrão ISO-3166-1alfa-2. Outras categorias semânticas, como EMAIL e GENDER, não são afetadas.
Valores de tag PRIVACY_CATEGORY
Valores de tag SEMANTIC_CATEGORY (grupo principal)
Membros do grupo
Código do país
IDENTIFIERBANK_ACCOUNTCA_BANK_ACCOUNT.US_BANK_ACCOUNT.IBANCA . US
ORGANIZATION_IDENTIFIERAU_BUSINESS_NUMBER.AU_COMPANY_NUMBERAU
DRIVERS_LICENSEAU_DRIVERS_LICENSE.CA_DRIVERS_LICENSE.US_DRIVERS_LICENSEAU . CA . US
MEDICARE_NUMBERAU_MEDICARE_NUMBERAU
PASSPORTAU_PASSPORT.CA_PASSPORT.US_PASSPORTAU . CA . US
PHONE_NUMBERAU_PHONE_NUMBER.CA_PHONE_NUMBER.UK_PHONE_NUMBER.US_PHONE_NUMBERAU . CA . GB . US
STREET_ADDRESSCA_STREET_ADDRESS.US_STREET_ADDRESSCA . US
TAX_IDENTIFIERAU_TAX_NUMBERAU
NATIONAL_IDENTIFIERCA_SOCIAL_INSURANCE_NUMBER.UK_NATIONAL_INSURANCE_NUMBER.US_SSNCA . GB . US
QUASI_IDENTIFIERCITYUS_CITY.CA_CITY.US . CA .
POSTAL_CODEAU_POSTAL_CODE.CA_POSTAL_CODE.UK_POSTAL_CODE.US_POSTAL_CODEAU . CA . GB . US
ADMINISTRATIVE_AREA_1CA_PROVINCE_OR_TERRITORY.US_STATE_OR_TERRITORYCA . US
ADMINISTRATIVE_AREA_2US_COUNTYUS
O engenheiro de dados pode usar os valores de tag pendentes especificando manualmente o valor da tag na instrução ALTER TABLE ou ALTER VIEW. Como alternativa, o engenheiro de dados pode chamar o procedimento armazenado ASSOCIATE_SEMANTIC_CATEGORY_TAGS para definir a tag.
Por exemplo, use uma instrução ALTER TABLE para definir manualmente o valor da tag
PASSPORTna coluna da tabela PASSPORT.ALTER TABLE mydb.myschema.mytable MODIFY COLUMN passport SET TAG SNOWFLAKE.CORE.SEMANTIC_CATEGORY = 'PASSPORT';
Não há alterações no processo de classificação geral ou nas etapas para classificar uma tabela, todas as tabelas em um esquema ou todas as tabelas em um banco de dados.
Dica
Se você passar a função EXTRACT_SEMANTIC_CATEGORIES como um argumento para o procedimento armazenado ASSOCIATE_SEMANTIC_CATEGORY_TAGS, verifique novamente qualquer tratamento personalizado que você possa ter configurado para garantir que seus fluxos de trabalho não sejam interrompidos devido a alterações de formatação pendentes.
Ref: 1110