Criar categorias personalizadas para dados confidenciais¶
Se não houver uma categoria semântica nativa que detecta seus dados confidenciais específicos do domínio, você poderá criar uma categoria personalizada para os dados confidenciais.
Implemente categorias semânticas personalizadas definindo um classificador personalizado. Um classificador personalizado tem os seguintes atributos:
Categorias semânticas personalizadas que identificam tipos de dados; por exemplo,
medical_codeeemployee_id.Expressões regulares que são usadas pelo algoritmo do Snowflake para detectar seus dados confidenciais.
Uma das categorias de privacidade predefinidas.
Como funciona¶
Snowflake provides the CUSTOM_CLASSIFIER class in the SNOWFLAKE.DATA_PRIVACY schema to enable data engineers to extend their data classification capabilities based on their own knowledge of their data. After you create an instance of the class, you can call a method on the instance to define your custom semantic category, specify the privacy category, and specify regular expressions to match column value patterns while optionally matching the column name.
Importante
A classificação de dados confidenciais armazena a definição de um classificador personalizado, não uma referência. Se você alterar o classificador personalizado, deverá usar o método SET_CUSTOM_CLASSIFIERS para atualizar o perfil de classificação com a nova definição.
Para um exemplo de uso da classe CUSTOM_CLASSIFIER para criar e usar um classificador personalizado, consulte Exemplo.
Considerações¶
Choose a warehouse that matches the size of the data you are classifying:
Sem preocupação com o tempo de processamento: warehouse X-Small.
Até 100 colunas em uma tabela: warehouse Small.
101 a 300 colunas em uma tabela: warehouse Medium.
Mais de 300 em uma tabela: warehouse grande.
Threshold for custom categories¶
O algoritmo usado para classificar categorias personalizadas usa uma regra de pontuação para avaliar a expressão regular do seu classificador personalizado e determinar qual categoria semântica recomendar.
The scoring rule uses a default threshold value of 0.8, which equates to high confidence in terms of what the recommended category should be. Eighty percent of the data in the sample must match the regular expressions that you add to the instance. The algorithm compares the score for a column against the threshold value and recommends a category that corresponds to one of the following:
Tag do sistema não internacional
Tag do sistema internacional
Custom classifier tag
Você pode especificar o valor limite para uma instância de classificação personalizada chamando o método custom_classifier !ADD_REGEX na instância.
Nota
É possível que dois classificadores personalizados tenham a mesma pontuação. Nesse caso, o empate é resolvido avaliando-se o seguinte:
Porcentagem de correspondência entre as respectivas categorias personalizadas.
Ordem alfabética entre os nomes das categorias personalizadas.
Nesse caso, a categoria vencedora será a categoria recomendada e o restante estará contido nas alternativas.
A tabela a seguir resume o algoritmo de pontuação e a tag recomendada:
Correspondência de nome fornecida |
O valor corresponde a >= limite |
Correspondências de nome |
Recomendação |
|---|---|---|---|
True |
True |
True |
Categoria personalizada |
False |
True |
Categoria Snowflake |
|
True |
False |
Categoria Snowflake |
|
False |
False |
Categoria Snowflake |
|
False |
True |
Não aplicável |
Categoria personalizada |
False |
Não aplicável |
Categoria Snowflake |
Replicação e clonagem¶
Instâncias da classe CUSTOM_CLASSIFIER são replicadas quando você replica um banco de dados.
Instâncias da classe CUSTOM_CLASSIFIER são clonadas quando você clona o esquema que contém as instâncias.