Criar categorias personalizadas para dados confidenciais¶

Se não houver uma categoria semântica nativa que detecta seus dados confidenciais específicos do domínio, você poderá criar uma categoria personalizada para os dados confidenciais.

Implemente categorias semânticas personalizadas definindo um classificador personalizado. Um classificador personalizado tem os seguintes atributos:

Categorias semânticas personalizadas que identificam tipos de dados; por exemplo, medical_code e employee_id.
Expressões regulares que são usadas pelo algoritmo do Snowflake para detectar seus dados confidenciais.
Uma das categorias de privacidade predefinidas.

Como funciona¶

Snowflake fornece a CUSTOM_CLASSIFIER classe no esquema SNOWFLAKE.DATA_PRIVACY para permitir que os engenheiros de dados ampliem seus recursos de classificação de dados com base em seu próprio conhecimento dos dados. Depois de criar uma instância da classe, você poderá chamar um método na instância para definir sua categoria semântica personalizada, especificar a categoria de privacidade e especificar expressões regulares para corresponder aos padrões de valor da coluna, além de, opcionalmente, corresponder ao nome da coluna.

Importante

A classificação de dados confidenciais armazena a definição de um classificador personalizado, não uma referência. Se você alterar o classificador personalizado, deverá usar o método SET_CUSTOM_CLASSIFIERS para atualizar o perfil de classificação com a nova definição.

Para um exemplo de uso da classe CUSTOM_CLASSIFIER para criar e usar um classificador personalizado, consulte Exemplo.

Considerações¶

Escolha um warehouse que corresponda ao tamanho dos dados que você está classificando:

Sem preocupação com o tempo de processamento: warehouse X-Small.
Até 100 colunas em uma tabela: warehouse Small.
101 a 300 colunas em uma tabela: warehouse Medium.
Mais de 300 em uma tabela: warehouse grande.

Limite para categorias personalizadas¶

O algoritmo usado para classificar categorias personalizadas usa uma regra de pontuação para avaliar a expressão regular do seu classificador personalizado e determinar qual categoria semântica recomendar.

A regra de pontuação usa um valor de limite padrão de 0,8, que equivale à alta confiança em termos de qual categoria deve ser recomendada. Oitenta por cento dos dados na amostra devem corresponder às expressões regulares que você adiciona à instância. O algoritmo compara a pontuação de uma coluna com o valor do limite e recomenda uma categoria que corresponda a um dos seguintes itens:

Tag do sistema não internacional
Tag do sistema internacional
Tag do classificador personalizado

Você pode especificar o valor limite para uma instância de classificação personalizada chamando o método custom_classifier !ADD_REGEX na instância.

Nota

É possível que dois classificadores personalizados tenham a mesma pontuação. Nesse caso, o empate é resolvido avaliando-se o seguinte:

Porcentagem de correspondência entre as respectivas categorias personalizadas.
Ordem alfabética entre os nomes das categorias personalizadas.

Nesse caso, a categoria vencedora será a categoria recomendada e o restante estará contido nas alternativas.

A tabela a seguir resume o algoritmo de pontuação e a tag recomendada:


Correspondência de nome fornecida	O valor corresponde a >= limite	Correspondências de nome	Recomendação
True	True	True	Categoria personalizada
	False	True	Categoria Snowflake
	True	False	Categoria Snowflake
	False	False	Categoria Snowflake
False	True	Não aplicável	Categoria personalizada
	False	Não aplicável	Categoria Snowflake

Replicação e clonagem¶

Instâncias da classe CUSTOM_CLASSIFIER são replicadas quando você replica um banco de dados.
Instâncias da classe CUSTOM_CLASSIFIER são clonadas quando você clona o esquema que contém as instâncias.