- Categorias:
EXTRACT_SEMANTIC_CATEGORIES¶
Nota
EXTRACT_SEMANTIC_CATEGORIES é uma função herdada. A Snowflake recomenda o uso de outros métodos de implementação da classificação de dados confidenciais.
Retorna um conjunto de categorias (semânticas e de privacidade) para cada coluna compatível na tabela ou exibição especificada. Para retornar as categorias para uma coluna, a coluna deve usar um tipo de dados que ofereceça suporte à classificação e não contenha todos os valores NULL.
As categorias são derivadas dos metadados e dados contidos nas colunas, assim como os metadados sobre as colunas e dados. As categorias de privacidade dependem das categorias semânticas geradas, se houver.
Sintaxe¶
EXTRACT_SEMANTIC_CATEGORIES( '<object_name>' [ , <max_rows_to_scan> ] )
Argumentos¶
Obrigatório:
object_nameO nome da tabela, tabela externa, exibição ou exibição materializada contendo as colunas a serem classificadas. Se um banco de dados e esquema não estiver em uso na sessão atual, o nome deve ser totalmente qualificado.
O nome deve ser especificado exatamente como está armazenado no banco de dados. Se o nome contiver caracteres especiais, letras maiúsculas ou espaços em branco, o nome deve ser incluído primeiro em aspas duplas e depois em aspas simples.
Opcional:
max_rows_to_scanO tamanho da amostra de linhas a serem utilizadas para determinar as categorias de classificação na tabela/exibição especificada.
Valores válidos:
1a10000Padrão:
10000
Retornos¶
Como um exemplo representativo, o objeto JSON tem a seguinte estrutura:
{
"valid_value_ratio": 1.0,
"recommendation": {
"semantic_category": "PASSPORT",
"privacy_category": "IDENTIFIER",
"confidence": "HIGH",
"coverage": 0.7,
"details": [
{
"semantic_category": "US_PASSPORT",
"coverage": 0.7
},
{
"semantic_category": "CA_PASSPORT",
"coverage": 0.1
}
]
},
"alternates": [
{
"semantic_category": "NATIONAL_IDENTIFIER",
"privacy_category": "IDENTIFIER",
"confidence": "LOW",
"coverage": 0.3,
"details": [
{
"semantic_category": "US_SSN",
"privacy_category": "IDENTIFIER",
"coverage": 0.3
}
]
}
]
}
Onde:
valid_value_ratioEspecifica a proporção de valores válidos no tamanho da amostra. Valores inválidos incluem NULL, uma cadeia de caracteres vazia e uma cadeia de caracteres com mais de 256 caracteres.
recommendationEspecifica informações sobre cada tag e valor. Estas informações incluem:
semantic_categoryEspecifica o valor da tag de categoria semântica.
Para saber os valores de tag possíveis, consulte Categorias semânticas nativas da classificação de dados confidenciais.
privacy_categoryEspecifica o valor da tag da categoria de privacidade.
Os valores possíveis são
IDENTIFIER,QUASI-IDENTIFIEReSENSITIVE.confidenceEspecifica um dos seguintes valores:
HIGH,MEDIUMouLOW. Este valor indica a confiança relativa que o Snowflake tem com base no processo de amostragem da coluna e como os dados da coluna se alinham com a forma como o Snowflake classifica os dados.coverageEspecifica a porcentagem de valores de células de amostra que correspondem às regras de uma categoria específica.
detailsEspecifica campos e valores que podem especificar um valor de tag geográfica para a tag SEMANTIC_CATEGORY.
alternatesEspecifica informações sobre cada tag e valor a ser considerado diferente da tag recomendada.
Notas de uso¶
The function requires a running warehouse. The warehouse can affect performance and cost.
Esta função não está mais sendo atualizada para coincidir com melhorias adicionais na classificação de dados.
Exemplos¶
Extrair as categorias semântica e de privacidade da tabela my_db.my_schema.hr_data usando o padrão (10000) para o número de linhas a serem digitalizadas:
USE ROLE data_engineer; USE WAREHOUSE classification_wh; SELECT EXTRACT_SEMANTIC_CATEGORIES('my_db.my_schema.hr_data');
O mesmo que o exemplo anterior, mas limitado apenas a 5.000 linhas digitalizadas na tabela:
USE ROLE data_engineer; SELECT EXTRACT_SEMANTIC_CATEGORIES('my_db.my_schema.hr_data', 5000);
O mesmo que o primeiro exemplo, mas armazena os resultados em uma tabela:
USE ROLE data_engineer; CREATE OR REPLACE TABLE classification_results(v VARIANT) AS SELECT EXTRACT_SEMANTIC_CATEGORIES('my_db.my_schema.hr_data');Quando os resultados são armazenados em uma tabela, você pode revisá-los antes de usar ASSOCIATE_SEMANTIC_CATEGORY_TAGS para aplicá-los.