カスタムデータ分類

このトピックでは、Snowflakeにおけるカスタムデータ分類の概念について説明します。

概要

Snowflakeは CUSTOM_CLASSIFIER クラス を SNOWFLAKE.DATA_PRIVACY スキーマで提供し、データエンジニアがデータに関する独自の知識に基づいてデータ分類機能を拡張できるようにします。クラスのインスタンスを作成した後、インスタンスのメソッドを呼び出して、独自のセマンティックカテゴリを定義し、プライバシーカテゴリを指定し、オプションで列名を一致させながら列の値パターンに一致する正規表現を指定できます。

カスタム分類インスタンスを作成して使用することで、次のことが可能になります。

  • データ分類作業を加速します。

  • 機密データを含む列に、業界およびドメイン固有のタグを定義します。

  • Snowflakeを活用して、 PII データを追跡する取り組みをより細かく制御します。

考慮事項

分類するデータのサイズに合ったウェアハウスを選択する。詳細については、 コンピューティングコスト をご参照ください

カスタム分類アルゴリズムについて

Snowflakeは、 データ分類 のアルゴリズムと比較して、カスタム分類に固有のアルゴリズムを使用します。異なる分類アルゴリズムを使用する理由は、データの分類方法に応じて安定した結果を確保するためです。

カスタム分類アルゴリズムは、 スコアリングルール を使用して、推奨するセマンティックカテゴリシステムタグと、代替として提案するセマンティックカテゴリタグ(存在する場合)を決定します。スコアリングロジックは、インスタンスに追加した正規表現を評価します。この正規表現は、インスタンスで custom_classifier !ADD_REGEX メソッドを呼び出して指定します。

スコアリングルールでは、推奨されるタグがどのようなものであるべきかに関して、高い信頼性に相当するデフォルトのしきい値 0.8 が使用されます。サンプル内のデータの80%は、インスタンスに追加した正規表現にマッチしなければなりません。アルゴリズムは、列のスコアをしきい値と比較し、次のいずれかに対応するタグを推奨します。

カスタム分類インスタンスのしきい値を指定するには、インスタンスで custom_classifier !ADD_REGEX メソッドを呼び出します。

注釈

2つのカスタム分類子が同じスコアを持つことは可能です。この場合、引き分けは次の評価によって解決されます:

  • それぞれのカスタムカテゴリー間の一致率。

  • カスタムカテゴリー名のアルファベット順。

その場合、勝利したカテゴリーが推薦カテゴリーとなり、残りは補欠カテゴリーに含まれます。

次の表は、スコアリングアルゴリズムと推奨タグをまとめたものです。

名前一致の提供

値の一致 >= しきい値

名前の一致

推奨

True

True

True

カスタムカテゴリ

False

True

Snowflakeカテゴリ

True

False

Snowflakeカテゴリ

False

False

Snowflakeカテゴリ

False

True

該当なし

カスタムカテゴリ

False

該当なし

Snowflakeカテゴリ

複製とクローニング

  • データベースをレプリケートすると、 CUSTOM_CLASSIFIER クラスのインスタンスがレプリケートされます。

  • インスタンスを含むスキーマをクローンすると、 CUSTOM_CLASSIFIER クラスのインスタンスがクローンされます。