機密データ用のカスタムカテゴリを作成する

ドメイン固有の機密データを検出する :doc:` ネイティブセマンティックカテゴリ </user-guide/classify-native>` がない場合、機密データ用のカスタムカテゴリを作成できます。

カスタム分類子を定義してカスタムセマンティックカテゴリを実装します。カスタム分類子には以下の属性があります。

  • データの種類を識別するカスタムセマンティックカテゴリ。例: medical_code および employee_id

  • Snowflakeのアルゴリズムが機密データを検出するために使用する正規表現。

  • 事前定義されたプライバシーカテゴリのいずれか。

仕組み

Snowflakeは CUSTOM_CLASSIFIER クラス を SNOWFLAKE.DATA_PRIVACY スキーマで提供し、データエンジニアがデータに関する独自の知識に基づいてデータ分類機能を拡張できるようにします。クラスのインスタンスを作成した後、インスタンスのメソッドを呼び出して、カスタムセマンティックカテゴリを定義し、プライバシーカテゴリを指定し、オプションで列名を一致させながら列の値パターンに一致する正規表現を指定できます。

重要

機密データの分類は、参照ではなく、カスタム分類子の定義を格納します。カスタム分類子を変更した場合は、 SET_CUSTOM_CLASSIFIERS メソッドを使用して新しい定義で分類プロファイルを更新する必要があります。

CUSTOM_CLASSIFIER クラスを使用してカスタム分類子を作成して使用する例については、 をご参照ください。

考慮事項

分類するデータのサイズに合ったウェアハウスを選択する。

  • 処理時間の考慮なし: XSウェアハウス。

  • テーブル内の列が最大100列:Sウェアハウス。

  • テーブル内の列が101列から300列:Mウェアハウス。

  • テーブル内に300列以上:Lウェアハウス。

カスタムカテゴリのしきい値

カスタムカテゴリを分類するために使用されるアルゴリズムは、スコアリングルール を使用して、カスタム分類子の正規表現を評価し、推奨するセマンティックカテゴリを決定します。

スコアリングルールでは、推奨されるカテゴリがどのようなものであるべきかに関して、高い信頼性に相当するデフォルトのしきい値0.8が使用されます。サンプル内のデータの80%は、インスタンスに追加した正規表現にマッチしなければなりません。アルゴリズムは、列のスコアをしきい値と比較し、次のいずれかに対応するカテゴリを推奨します。

  • 非国際システムタグ

  • 国際システムタグ

  • カスタム分類子タグ

カスタム分類インスタンスのしきい値を指定するには、インスタンスで custom_classifier !ADD_REGEX メソッドを呼び出します。

注釈

2つのカスタム分類子が同じスコアを持つことは可能です。この場合、引き分けは次の評価によって解決されます:

  • それぞれのカスタムカテゴリー間の一致率。

  • カスタムカテゴリー名のアルファベット順。

その場合、勝利したカテゴリーが推薦カテゴリーとなり、残りは補欠カテゴリーに含まれます。

次の表は、スコアリングアルゴリズムと推奨タグをまとめたものです。

名前一致の提供

値の一致 >= しきい値

名前の一致

推奨

True

True

True

カスタムカテゴリ

False

True

Snowflakeカテゴリ

True

False

Snowflakeカテゴリ

False

False

Snowflakeカテゴリ

False

True

該当なし

カスタムカテゴリ

False

該当なし

Snowflakeカテゴリ

複製とクローニング

  • データベースをレプリケートすると、 CUSTOM_CLASSIFIER クラスのインスタンスがレプリケートされます。

  • インスタンスを含むスキーマをクローンすると、 CUSTOM_CLASSIFIER クラスのインスタンスがクローンされます。