機密データ用のカスタムカテゴリを作成する¶
ドメイン固有の機密データを検出する :doc:` ネイティブセマンティックカテゴリ </user-guide/classify-native>` がない場合、機密データ用のカスタムカテゴリを作成できます。
カスタム分類子を定義してカスタムセマンティックカテゴリを実装します。カスタム分類子には以下の属性があります。
データの種類を識別するカスタムセマンティックカテゴリ。例:
medical_codeおよびemployee_id。Snowflakeのアルゴリズムが機密データを検出するために使用する正規表現。
事前定義されたプライバシーカテゴリのいずれか。
仕組み¶
Snowflake provides the CUSTOM_CLASSIFIER class in the SNOWFLAKE.DATA_PRIVACY schema to enable data engineers to extend their data classification capabilities based on their own knowledge of their data. After you create an instance of the class, you can call a method on the instance to define your custom semantic category, specify the privacy category, and specify regular expressions to match column value patterns while optionally matching the column name.
重要
機密データの分類は、参照ではなく、カスタム分類子の定義を格納します。カスタム分類子を変更した場合は、 SET_CUSTOM_CLASSIFIERS メソッドを使用して新しい定義で分類プロファイルを更新する必要があります。
CUSTOM_CLASSIFIER クラスを使用してカスタム分類子を作成して使用する例については、 例 をご参照ください。
考慮事項¶
Choose a warehouse that matches the size of the data you are classifying:
処理時間の考慮なし: XSウェアハウス。
テーブル内の列が最大100列:Sウェアハウス。
テーブル内の列が101列から300列:Mウェアハウス。
テーブル内に300列以上:Lウェアハウス。
Threshold for custom categories¶
カスタムカテゴリを分類するために使用されるアルゴリズムは、スコアリングルール を使用して、カスタム分類子の正規表現を評価し、推奨するセマンティックカテゴリを決定します。
The scoring rule uses a default threshold value of 0.8, which equates to high confidence in terms of what the recommended category should be. Eighty percent of the data in the sample must match the regular expressions that you add to the instance. The algorithm compares the score for a column against the threshold value and recommends a category that corresponds to one of the following:
非国際システムタグ
国際システムタグ
Custom classifier tag
カスタム分類インスタンスのしきい値を指定するには、インスタンスで custom_classifier !ADD_REGEX メソッドを呼び出します。
注釈
2つのカスタム分類子が同じスコアを持つことは可能です。この場合、引き分けは次の評価によって解決されます:
それぞれのカスタムカテゴリー間の一致率。
カスタムカテゴリー名のアルファベット順。
その場合、勝利したカテゴリーが推薦カテゴリーとなり、残りは補欠カテゴリーに含まれます。
次の表は、スコアリングアルゴリズムと推奨タグをまとめたものです。
名前一致の提供 |
値の一致 >= しきい値 |
名前の一致 |
推奨 |
|---|---|---|---|
True |
True |
True |
カスタムカテゴリ |
False |
True |
Snowflakeカテゴリ |
|
True |
False |
Snowflakeカテゴリ |
|
False |
False |
Snowflakeカテゴリ |
|
False |
True |
該当なし |
カスタムカテゴリ |
False |
該当なし |
Snowflakeカテゴリ |
複製とクローニング¶
データベースをレプリケートすると、 CUSTOM_CLASSIFIER クラスのインスタンスがレプリケートされます。
インスタンスを含むスキーマをクローンすると、 CUSTOM_CLASSIFIER クラスのインスタンスがクローンされます。