分類の紹介

分類は、データベーステーブルおよびビューの列に保存されている情報を分析および分類するプロセスです。

プロセスが完了すると、分類では オブジェクトタグ を使用してデータにラベルを付けて、プライバシー規制の分析とコンプライアンスを促進するために使用できるようにします。

このトピックの内容:

分類とは

分類により、次のようなテーブルおよびビュー内で保存されているデータに関する質問に答えることができます。

  • テーブル/ビューには PII (個人を特定できる情報)または機密データが含まれているか。

  • データはどこに保存され、どのくらいの期間保存されているか。

  • 洞察を引き出しながら、データを露出から保護するにはどうすればよいか。

分類プロセスでは、テーブルまたはビューでサポートされているすべての列をサンプリングし、列の名前と値を使用して、Snowflakeが提供するシステムカテゴリにデータを分類します。カテゴリは、 タグ として列に割り当てることができます。これは、手動で設定することも、提供されているストアドプロシージャを使用して設定することもできます。

分類のユースケース

分類によって生成されたタグがテーブル、ビュー、または列に割り当てられると、それらを使用して、次のようなさまざまなデータガバナンス、共有、およびプライバシーのユースケースを有効化できるようになります。

PII 分類

分類を使用して、データ内の PII (個人を特定できる情報)を識別し、リスクを軽減してコンプライアンスを満たすことができます。

データアクセス

分類タグを使用して セキュリティ制御 を構成し、個人データへの不正アクセスを防ぐことができます。

ポリシー管理

分類タグを使用して、データのプライバシーを保護するために マスキングポリシー を設定する方法を決定できます。

匿名化

分類を使用して、個人データの匿名化を合理化できます。匿名化は、分類プライバシーカテゴリに依存して、関連する主体のIDを保護しながら、データを分析に利用できるようにします。

サポートされているオブジェクトおよび列のデータ型

Snowflakeは、次のようなすべての型のテーブルとビューに保存されているデータの分類をサポートしています。

  • 外部テーブル

  • マテリアライズドビュー

  • セキュアビュー

サポートされているすべての データ型 のテーブルとビューの列を分類できます。ただし、次のデータ型は 除きます

  • GEOGRAPHY

  • BINARY

  • VARIANT

    列のデータ型を NUMBER または STRING データ型に キャスト できる場合は、列を VARIANT データ型で分類できることに注意してください。列に JSON、 XML、またはその他の半構造化データが含まれている場合、Snowflakeは列を分類しません。

テーブルまたはビューに、サポートされているデータ型ではない列が含まれている場合、または列にすべての NULL 値が含まれている場合、分類プロセスは列を無視し、出力に含めません。

重要

データが NULL 以外の値を持つ NULL 値を表す場合は、分類結果の精度に影響を与える可能性があります。

コンピューティングコスト

分類プロセスには、分類が実行されるときに使用および実行されている、 仮想ウェアハウス によって提供されるコンピューティングリソースが必要です。

テーブル/ビュー内のデータを分類するために必要な時間(したがって、ウェアハウスによって消費されるクレジットの数)は、分類されるデータの量の関数です。

特に、テーブル/ビューに分類をサポートする列が多数ある場合は、処理時間に影響を与える可能性があります。ただし、原則として、処理速度はウェアハウスのサイズに比例します。言い換えると、ウェアハウスのサイズが大きくなるごとに(例: XSからS)、通常、処理時間が半分に短縮されます。

次の一般的なガイドラインに従って、 ウェアハウスのサイズ を選択します。

  • 処理時間の考慮なし: XSウェアハウス。

  • テーブル内の列が最大100列: Sウェアハウス。

  • テーブル内の列が101列から300列: Mウェアハウス。

  • テーブル内の列が301列以上: Lウェアハウス。

分類カテゴリ

Snowflakeは、テーブル/ビュー列のデータを分類するために2つのカテゴリ型を利用します。

  • セマンティックカテゴリ

  • プライバシーカテゴリ

セマンティックカテゴリ

セマンティックカテゴリは、個人属性を保存するものとして列を識別します。Snowflakeでサポートされているセマンティックカテゴリには、次のものがあります。

  • 名前

  • 住所

  • 郵便番号

  • 電話番号(現在は US 番号のみ)

  • 年齢

  • 性別

For a complete list of the semantic categories supported in the current release, see カテゴリタグの値とマッピング. Additional semantic categories will be added in future releases.

プライバシーカテゴリ

列にセマンティックカテゴリがあると判断された場合、その列は次のプライバシーカテゴリのいずれかに従ってさらに分類されます。

識別子

直接識別子 とも呼ばれるこれらの属性は、個人を一意に識別します(例: 名前、社会保障番号、電話番号)。

準識別子

間接識別子 とも呼ばれるこれらの属性は、他の属性と組み合わせると、個人を一意に識別するために使用できます(例: 年齢+性別+郵便番号)。

機密

識別されていないが、プライバシー上の理由(例: 給与や医療/ヘルスケアのステータス)のために個人が開示したくない情報である個人属性。

注釈

3つのプライバシーカテゴリすべてからの複数のセマンティックカテゴリは、「機密性の高い個人データ」、「データの特別なカテゴリ」、または法規制に基づく同様の用語と見なされる場合があり、追加の保護または制御が必要になる場合があります。

現在、分類では、データに機密性と識別性の両方のタグは付けられていません。つまり、分類は「どちらか一方」の操作であり、機密として識別されたデータへのアクセスを管理するルールを作成するときに考慮する必要があります。

セマンティックカテゴリの確率と代替

Snowflakeは、列のセマンティックカテゴリとプライバシーカテゴリを識別するだけでなく、列のセマンティックカテゴリに関する次の情報も返します。

  • 分類プロセスが正しいセマンティックカテゴリを導き出した確率。

  • 列にタグを付けることができる代替セマンティックカテゴリのリスト(確率が 0.80 しきい値を下回り、プロセスが 0.15 より大きい確率で他の可能なセマンティックカテゴリを識別した場合)。

詳細については、 EXTRACT_SEMANTIC_CATEGORIES 関数をご参照ください。

システムタグ

分類では、セマンティックカテゴリとプライバシーカテゴリに事前定義されたシステム タグ を使用します。

  • For the SEMANTIC_CATEGORY tag, the possible tag values are the semantic categories (NAME, AGE, etc.). For the complete list of possible semantic category values, see カテゴリタグの値とマッピング.

  • PRIVACY_CATEGORY タグの場合、可能なタグ値はプライバシーカテゴリ( IDENTIFIERQUASI_IDENTIFIER、または SENSITIVE)です。

システムタグは、 SNOWFLAKE 読み取り専用共有データベースの CORE スキーマに保存されます。タグ名を表示するには、 SHOW TAGS コマンドを使用します。

例:

USE SCHEMA SNOWFLAKE.CORE;

SHOW TAGS;

タグが抽出された後にシステムタグに割り当てられた値を表示するには、 分類データの表示と追跡 をご参照ください。

最上部に戻る