データ品質チェックの紹介

Snowflakeのデータ品質チェックは、データの健全性を継続的に検証します。これらのチェックは、規制基準を遵守し、正確なメトリックを通じてサービスレベル契約を満たし、自動化された一貫したデータ検証を提供することによってデータ主導の意思決定における信頼性を構築するのに役立ちます。Cortex Data Qualityを使用すると、AIを活用して、メタデータの特性と使用パターンに基づいてデータ品質チェックをエージェント的に提案できます。手動でチェックを定義する必要がなくなり、Snowflake内にデータを安全に保持しながらセットアッププロセスを迅速化できます。構成が完了すると、品質チェックが選択したスケジュールで自動的に実行され、違反が報告されるため、是正措置を講じることができます。

始めましょう

Snowflakeは、データ品質チェックを設定し、これらのチェックの結果をモニターするためのウェブインターフェイスを提供します。

開始するには、次のいずれかを実行します。

  • データのデータ品質チェックを設定するには、:doc:`/user-guide/data-quality-ui-setup`をご参照ください。

  • 既存のデータ品質チェックの結果をモニターするには、:doc:`/user-guide/data-quality-ui-monitor`をご参照ください。

データ品質チェックの主要概念

データメトリック関数(DMF)

DMFは、列に存在するNULL値の数やテーブルが更新される頻度など、データの属性を測定します。DMFは、データの現在の状態に基づいて値を返しますが、その値がデータ品質に問題があるかどうかは定義しません。DMFはデータ品質チェックの構成要素です。

Snowflakeは、構成を必要とせずに一般的なメトリックを測定する*システムDMFs*を提供します。さまざまなディメンションで利用できるシステムDMFsのリストについては、:doc:`data-quality-system-dmfs`をご参照ください。

モニターするメトリック用のシステムDMFがない場合は、*カスタムDMF*を定義できます。カスタムDMFの作成方法については、:doc:`data-quality-custom-dmfs`をご参照ください。

期待値

期待値はDMFと組み合わされてデータ品質チェックを作成します。DMFが値を返すと、その値は期待値の定義と比較され、データがチェックに合格したか失敗したかを決定します。チェックに失敗した戻り値は期待値の違反として報告されるため、適切なアクションを取ることができます。

:doc:`Snowsightを使用してデータ品質チェックを作成する<data-quality-ui-setup>`場合、DMFを選択し、同時に期待値を定義します。:doc:`SQLを使用して期待値を直接操作する<data-quality-expectations>`こともできます。

異常検出

異常検出は、履歴データを使用して、DMFの戻り値が予測範囲を上回るか下回るかを自動的に検出します。現在、Snowflakeはデータの量と鮮度の異常を自動的に検出できます。詳細については、 データ品質の異常検出 をご参照ください。

DMF スケジュール

テーブルまたはビューのDMFスケジュールによって、DMFが実行される頻度が決定されます。DMFがデータ品質チェックを実行するため、DMFスケジュールによって品質チェックの実行頻度が決定されます。デフォルトでは、DMFスケジュールは1時間に1回DMFを実行します。テーブルやビューのスケジュールを調整するには、:ref:`label-data_quality_ui_setup_schedule`をご参照ください。

DMFスケジュールは、Snowflakeが異常の有無をチェックする頻度には影響しません。

サポートされるテーブルの種類

以下の種類のテーブルオブジェクトに DMF を設定できます:

  • 動的テーブル

  • イベントテーブル

  • 外部テーブル

  • Apache Iceberg™ テーブル

  • マテリアライズドビュー

  • テーブル(CREATE TABLE)、仮および一時テーブルを含む

  • ビュー

ハイブリッドテーブルやストリームオブジェクトに DMF を設定することはできません。

コストの考慮事項

データ品質チェックを実行するDMFsは、コストが発生する:ref:`サーバーレスコンピューティングリソース<label-serverless_credit_usage>`を使用します。これらのコストの価格設定については、`Snowflakeサービス利用表`_をご参照ください。

サーバーレスコンピューティングリソースによって消費されたクレジットは、毎月の請求書の「データ品質モニタリング」カテゴリーに記載されます。これらのクレジットには、使用するすべてのシステムまたはユーザー定義のデータ品質メトリックによって消費される計算が含まれます。DMFを作成しても請求されることはありません。

  • 課金は、スケジュールされたDMFがオブジェクトに対して計算された場合にのみ発生します。SELECTステートメントでDMFを呼び出すなど、スケジュール外のデータ メトリック関数使用については請求されません。

  • ログインフラストラクチャは、メトリック出力をイベントテーブルに統合します。ログサービスによって発生した消費は、毎月の請求書に「ログ」として表示されます。

Tip

品質チェックに関連する消費を追跡するには、以下のビューをクエリできます。

  • アカウントでのDMFsの使用に関連するクレジット消費を追跡するための:doc:DATA_QUALITY_MONITORING_USAGE_HISTORY</sql-reference/account-usage/data_quality_monitoring_usage_history>

  • 組織内のアカウントで消費された日次クレジットを追跡するための:doc:METERING_DAILY_HISTORY</sql-reference/organization-usage/metering_daily_history>service_type 列は DATA_QUALITY_MONITORING を指定します。

複製

複製と DMFs については、 データメトリック関数の複製(DMFs) をご参照ください。

制限事項

DMFsを使用する場合、以下の制限に注意してください。

  • オブジェクトに対する DMFs の関連付けはアカウントあたり合計10,000件までです。テーブルまたはビューにDMFを設定する各インスタンスは、1件の関連としてカウントされます。

  • データ共有:共有に対してDMFの権限を付与することや、共有されたテーブルやビューにDMFを設定することはできません。

  • オブジェクトタグにDMFを設定することはサポートされていません。

  • :ref:`リーダーアカウント<label-about_reader_accounts>`のオブジェクトにDMFを設定することはできません。

  • トライアルアカウントはこの機能をサポートしていません。