カスタムデータ分類¶
このトピックでは、Snowflakeにおけるカスタムデータ分類の概念について説明します。
概要¶
Snowflakeは CUSTOM_CLASSIFIER クラス を SNOWFLAKE.DATA_PRIVACY スキーマで提供し、データエンジニアがデータに関する独自の知識に基づいてデータ分類機能を拡張できるようにします。クラスのインスタンスを作成した後、インスタンスのメソッドを呼び出して、独自のセマンティックカテゴリを定義し、プライバシーカテゴリを指定し、オプションで列名を一致させながら列の値パターンに一致する正規表現を指定できます。
カスタム分類インスタンスを作成して使用することで、次のことが可能になります。
データ分類作業を加速します。
機密データを含む列に、業界およびドメイン固有のタグを定義します。
Snowflakeを活用して、 PII データを追跡する取り組みをより細かく制御します。
考慮事項¶
分類するデータのサイズに合ったウェアハウスを選択する。詳細については、 コンピューティングコスト をご参照ください
カスタム分類アルゴリズムについて¶
Snowflakeは、 データ分類 のアルゴリズムと比較して、カスタム分類に固有のアルゴリズムを使用します。異なる分類アルゴリズムを使用する理由は、データの分類方法に応じて安定した結果を確保するためです。
カスタム分類アルゴリズムは、 スコアリングルール を使用して、推奨するセマンティックカテゴリシステムタグと、代替として提案するセマンティックカテゴリタグ(存在する場合)を決定します。スコアリングロジックは、インスタンスに追加した正規表現を評価します。この正規表現は、インスタンスで custom_classifier !ADD_REGEX メソッドを呼び出して指定します。
スコアリングルールでは、推奨されるタグがどのようなものであるべきかに関して、高い信頼性に相当するデフォルトのしきい値 0.8
が使用されます。サンプル内のデータの80%は、インスタンスに追加した正規表現にマッチしなければなりません。アルゴリズムは、列のスコアをしきい値と比較し、次のいずれかに対応するタグを推奨します。
カスタム分類インスタンスのしきい値を指定するには、インスタンスで custom_classifier !ADD_REGEX メソッドを呼び出します。
注釈
2つのカスタム分類子が同じスコアを持つことは可能です。この場合、引き分けは次の評価によって解決されます:
それぞれのカスタムカテゴリー間の一致率。
カスタムカテゴリー名のアルファベット順。
その場合、勝利したカテゴリーが推薦カテゴリーとなり、残りは補欠カテゴリーに含まれます。
次の表は、スコアリングアルゴリズムと推奨タグをまとめたものです。
名前一致の提供 |
値の一致 >= しきい値 |
名前の一致 |
推奨 |
---|---|---|---|
True |
True |
True |
カスタムカテゴリ |
False |
True |
Snowflakeカテゴリ |
|
True |
False |
Snowflakeカテゴリ |
|
False |
False |
Snowflakeカテゴリ |
|
False |
True |
該当なし |
カスタムカテゴリ |
False |
該当なし |
Snowflakeカテゴリ |
複製とクローニング¶
データベースをレプリケートすると、 CUSTOM_CLASSIFIER クラスのインスタンスがレプリケートされます。
インスタンスを含むスキーマをクローンすると、 CUSTOM_CLASSIFIER クラスのインスタンスがクローンされます。