データプロファイリングを使用してデータを理解する¶
データプロファイリングは、データ型、値分布、NULL 値のカウント数および一意性などの統計を自動的に収集することで、データセットの構造、コンテンツ、品質を理解するのに役立ちます。データプロファイルは、パターン、異常、潜在的な品質問題を明らかにします。これにより、データの信頼性を評価し、データをクリーンアップ、変換、または有効に使用する方法について、情報に基づいた意思決定を行うことができます。データプロファイリングは、手動で設定することなくインサイトを提供することで、継続的なデータ品質モニタリングへのパスを簡素化します。
データプロファイルには、次の統計が含まれます。
テーブル内の行数。
テーブルが最後に更新された時刻。
列にある NULL 値の数。
列の最小値と最大値。
列の最も一般的な値。
始めましょう¶
テーブルまたはビューのデータプロファイルを表示するには、次の手順を実行します。
Snowsight にサインインします。
ナビゲーションメニューで、Catalog » Database Explorer を選択してから、テーブルまたはビューを選択します。
Data Quality タブを選択します。
Data Profile を選択します。
ウェアハウスに関する考慮事項¶
データプロファイリングは SQL クエリのバックグラウンドで実行され、テーブルやビューに関する情報を表示します。Snowflakeは、XSサイズのウェアハウスを使用してこれらのクエリを実行することを推奨しています。ただし、重いワークロードは、より大きなウェアハウスを使用するとパフォーマンスが向上する可能性があります。一般的に、ウェアハウスが大きいほど、より多くのクレジットを消費します。
デフォルトでは、データプロファイリングは現在のユーザーのデフォルトとして設定されているウェアハウスを使用します。別のウェアハウスを選択するには、ページ上部のドロップダウンリストを使用します。