Classificação personalizada de dados¶
Este tópico fornece conceitos sobre classificação de dados personalizada no Snowflake.
Visão geral¶
Snowflake fornece a CUSTOM_CLASSIFIER classe no esquema SNOWFLAKE.DATA_PRIVACY para permitir que os engenheiros de dados ampliem seus recursos de classificação de dados com base em seu próprio conhecimento dos dados. Depois de criar uma instância da classe, você pode chamar um método na instância para definir sua própria categoria semântica, especificar a categoria de privacidade e especificar expressões regulares para corresponder aos padrões de valor da coluna e, ao mesmo tempo, corresponder opcionalmente ao nome da coluna.
Ao criar e usar instâncias de classificação personalizadas, você pode:
Acelerar seus esforços de classificação de dados.
Definir tags específicas do setor e do domínio para colunas que contêm dados confidenciais.
Aproveitar o Snowflake para ter mais controle sobre seus esforços para rastrear dados de PII.
Considerações¶
Escolha um warehouse que corresponda ao tamanho dos dados que você está classificando. Para obter mais informações, consulte Custos computacionais
Sobre o algoritmo de classificação personalizado¶
O Snowflake usa um algoritmo exclusivo para classificação personalizada em comparação com o algoritmo para classificação de dados. A razão para ter diferentes algoritmos de classificação é garantir resultados estáveis, dependendo de como você escolhe classificar seus dados.
O algoritmo de classificação personalizado usa uma regra de pontuação para determinar qual tag de sistema de categoria semântica recomendar e quais tags de categoria semântica, se houver, sugerir como alternativas. A lógica de pontuação avalia as expressões regulares que você adiciona à sua instância, que você especifica chamando o método custom_classifier !ADD_REGEX na sua instância.
A regra de pontuação usa um valor limite padrão de 0.8
que equivale a alta confiança em termos do que a tag recomendada deve ser. Oitenta por cento dos dados na amostra devem corresponder às expressões regulares que você adiciona à instância. O algoritmo compara a pontuação de uma coluna com o valor limite e recomenda uma tag que corresponda a um dos seguintes:
Tag do classificador personalizado.
Você pode especificar o valor limite para uma instância de classificação personalizada chamando o método custom_classifier !ADD_REGEX na instância.
Nota
É possível que dois classificadores personalizados tenham a mesma pontuação. Nesse caso, o empate é resolvido avaliando-se o seguinte:
Porcentagem de correspondência entre as respectivas categorias personalizadas.
Ordem alfabética entre os nomes das categorias personalizadas.
Nesse caso, a categoria vencedora será a categoria recomendada e o restante estará contido nas alternativas.
A tabela a seguir resume o algoritmo de pontuação e a tag recomendada:
Correspondência de nome fornecida |
O valor corresponde a >= limite |
Correspondências de nome |
Recomendação |
---|---|---|---|
True |
True |
True |
Categoria personalizada |
False |
True |
Categoria Snowflake |
|
True |
False |
Categoria Snowflake |
|
False |
False |
Categoria Snowflake |
|
False |
True |
Não aplicável |
Categoria personalizada |
False |
Não aplicável |
Categoria Snowflake |
Replicação e clonagem¶
Instâncias da classe CUSTOM_CLASSIFIER são replicadas quando você replica um banco de dados.
Instâncias da classe CUSTOM_CLASSIFIER são clonadas quando você clona o esquema que contém as instâncias.