ML 可観測性：時間経過に伴うモデルの動作のモニタリング¶

モデルの動作は、基になるハードウェアやソフトウェアの変更、トラフィックの流動性などの通常の要因だけでなく、入力ドリフト、古くなったトレーニングの仮定、データパイプラインの問題などにより、時間の経過とともに変化する可能性があります。ML 可観測性を使用すると、Snowflakeモデルレジストリを介してデプロイしたプロダクションモデルの品質を、パフォーマンス、ドリフト、ボリュームなどの複数の次元にわたって追跡できます。さらに、文字列のカテゴリ列を使用して、データのさまざまなセグメント全体でモデルのパフォーマンスをモニターできます。

現在、モデルモニターは回帰モデルとバイナリ分類モデルをサポートしています。

注釈

ML 可観測性を使い始めるには、クイックスタートをご参照ください。

ML 可観測性ワークフロー¶

Snowflake Model Registry にログされたモデルを推論に使用すると、推論メソッドに渡された入力 DataFrame のタイプに応じて、Snowpark または pandas DataFrame の形式で結果を受け取ります。このデータは通常Snowflakeで生成されます。推論をSnowflakeの外で実行する場合でも、結果をSnowflakeに保存するのが一般的です。ML 可観測性は、保存された推論データを操作することで、これらのシナリオの両方でモデルのパフォーマンスを監視することができます。典型的なワークフローを以下に示します。

モニタリングログは推論データと予測値を保存し、 ML 可観測性機能が予測値の経時変化を観察できるようにします。モニタリングログは、 ID、タイムスタンプ、特徴、予測、および与えられた行が予測データであるか観測データであるかを示すグランドトゥルースラベルを含むテーブルに格納されます。基本構造を以下に示します。

モニターしたいモデルのバージョンごとに、明示的にモデルモニターオブジェクトを作成する必要があります。各モデルバージョンは正確に1つのモニターを持つことができ、各モニターは正確に1つのモデルバージョンを監視することができます。モニターオブジェクトは、ソースデータをクエリすることでモニターログを自動的に更新し、ログに基づいてモニタリングレポートを更新します。

各モニターは以下の情報をカプセル化しています。

モニターするモデルのバージョン。
モニターログが保存されているテーブル。
データを保存する最小の時間粒度（アグリゲーションウィンドウ）、現在は最小1日です。
ドリフトなどの比較指標演算のためのオプションのベースライン・テーブル。

前提条件¶

始める前に、以下をご確認ください。

Snowflakeアカウント。
snowflake-ml-python Pythonパッケージのバージョン1.7.1以降。
Snowflake Model Registry に精通していること。

モデルモニターの作成¶

CREATE MODEL MONITOR コマンドを使用してモデルモニターを作成します。モデルモニターは、モニターするモデルのバージョンと同じスキーマで作成する必要があります。モニターを作成するスキーマには CREATE MODEL MONITOR 権限が必要です。1アカウントにつき最大250人のモデルモニターを作成できます。

CREATE MODEL MONITOR コマンドの詳細は CREATE MODEL MONITOR をご参照ください。

Tip

モデルモニターで使用できる他の SQL コマンドの詳細については、モデルモニターコマンドをご覧ください。

モニタリングの一時停止と再開¶

ALTER MODEL MONITOR ... SUSPEND を使ってモデルモニターをサスペンド（一時停止）することができます。監視を再開するには、 ALTER MODEL MONITOR ... RESUME を発行します。

リフレッシュ失敗時の自動停止¶

モデル・モニターは、ソース・テーブルに関連するリフレッシュに5回連続して失敗すると、自動的にリフレッシュを中断します。DESCRIBE MODEL MONITOR コマンドを使用して、リフレッシュ・サスペンションのステータスと原因を表示できます。出力には以下の列などがあります。

aggregation_status：この列の値は JSON オブジェクトです。モデルモニターが中断されると、このオブジェクトの値の1つ以上が SUSPENDED になります。
aggregation_last_error：この列の値は、中断の原因となった特定の SQL エラーを含む JSON オブジェクトです。

リフレッシュ失敗の根本原因を解決した後、 ALTER MODEL MONITOR ... RESUME を発行してモニターを再開します。

モデルモニターへのセグメントの追加¶

モデルモニターはセグメンテーションをサポートしており、完全なデータセットのモニタリングに加えて、データの特定のサブセットのモデル品質を経時的にモニターできます。セグメントは、データを異なるリージョンや異なるユーザーグループなどの論理ユニットにグループ化するために使用されます。

セグメントによるモニターの作成¶

モデルモニターを作成する場合は、 SEGMENT_COLUMNS パラメーターを使用してセグメント列を指定できます。セグメント列は、ソースデータの文字列の列にする必要があります。

重要

数値列にセグメントを作成するには、モニターを作成する前にそれらを有効なカテゴリにバケット化します。たとえば、数値 TEMPERATURE の列をセグメント列として使用する前に、COLD'（< 32°F), 'MODERATE' (32-80°F), and 'HOT' (> 80F）のようなカテゴリ値に変換することができます。

CREATE [OR REPLACE] MODEL MONITOR [IF NOT EXISTS] <NAME> WITH
    --- all other existing parameters of CREATE MODEL MONITOR
    SEGMENT_COLUMNS = (<segment_column_name_array>)

Copy

完全な構文とパラメーターの詳細については、 CREATEMODELMONITOR をご参照ください。

既存または新規のモニターへのセグメントの追加¶

ALTER MODEL MONITOR コマンドを使用して、既存のモニターにセグメント列を追加できます。

ALTER MODEL MONITOR <NAME> ADD SEGMENT_COLUMN = <segment_column_name>

Copy

既存のモニターからセグメント列を削除することもできます。

ALTER MODEL MONITOR <NAME> DROP SEGMENT_COLUMN = <segment_column_name>

Copy

完全な構文とオプションについては、 ALTERMODELMONITOR をご参照ください。

UI モニタリングセグメントにおけるセグメントの定義¶

セグメントの構成と管理は、UI モニタリングセグメント設定を通じて行うことができます。

セグメント設定インターフェースを使用して、モデルのモニター対象セグメントを定義および構成できます。

モデルモニターダッシュボードのセグメントセレクタで、セグメントを選択します。¶

モデルモニターダッシュボードでは、セグメントセレクタを使用して、データの特定のセグメントのメトリックを表示できます。

セグメントのパフォーマンスの考慮事項¶

パフォーマンスは、機能の数、セグメント列の数、セグメント列ごとの一意の値、ウェアウェアハウスのサイズ、ウェアハウスのタイプ、集計ウィンドウ、集約行数、集約ウィンドウあたりの行数など、多くの要因によって異なります。

CREATE と SEGMENT_COLUMNS のパフォーマンスへの影響は、リクエスト内のセグメント列の数に正比例します。
多くのセグメント列があり、 CREATE のパフォーマンスが遅い場合は、 ALTER コマンドを使用してセグメント列を1つずつ追加することを検討してください
各セグメント列と値の組み合わせは個別にクエリされるため、スケジューリングやその他の要因によっては、データが最後に更新された時間に時間差が生じる場合があります。ただし、すべてのデータを同時に更新するように努めています。

モニタリングレポートの表示¶

モニターレポートを表示するには、 Snowsight の ML Monitoringダッシュボードにアクセスしてください。ナビゲーションメニューで AI & ML » Models を選択します。結果のリストには、現在のロールがアクセスできるすべてのデータベースとスキーマのSnowflake Model Registry内のすべてのモデルが含まれます。

Models リストの該当行を選択して、モデルの詳細ページを開きます。詳細ページには、モデルの説明、タグ、バージョン、モニターなど、モデルのキー情報が表示されます。

詳細ページの Monitors のリストには、モデルモニターのリスト、そのモニターがアタッチされているモデルバージョン、ステータス、作成日が表示されます。

モニターリストで対応する行を選択して、モデルモニターダッシュボードページを開きます。ダッシュボードには、経時的なモデルのキー指標がグラフで表示されます。表示される正確なグラフは、モニターが基づいているモデルのタイプ（つまり、バイナリ分類または回帰）によって異なります。

ダッシュボードでは、以下のアクションを実行できます。

時間範囲セレクタをクリックして、グラフの範囲を変更します。
Settings ボタンをクリックして、表示されるグラフを変更します。(メトリック名にマウスカーソルを合わせると、そのメトリックの詳細情報が表示されます。)
モデルモニターを比較するには、 Compare モデルセレクタドロップダウンをクリックします。
Display monitor details を選択して、モデルモニターの詳細情報を表示します。

モニタリング結果のクエリ¶

作成した各モデルモニターには、以下のメトリックがあります。

ドリフトメトリック: 分布の変化またはデータのシフト
パフォーマンスメトリック: 分布の変化またはデータのシフト
統計的メトリック: カウントまたはnull値

モニターによって計算されたメトリックをクエリするには、モニターメトリック関数を使用します。メトリック関数は、モデルモニターオブジェクトからメトリックを取得します。Streamlitや他の集中モニタリングツールでカスタムダッシュボードを作成するには、メトリック関数の結果を使用できます。

重要

モデルモニターオブジェクトを扱うには、以下の権限が必要です。

コマンド	必要な権限
CREATE MODEL MONITOR	モデルを作成するスキーマについての CREATE MODEL MONITOR 権限データソース上（テーブルまたはビュー）の SELECT データベース、スキーマ、ウェアハウス、モデルについての USAGE
SHOW MODEL MONITORS	モデル・モニター上の権限
DESCRIBE MODEL MONITOR	モデル・モニター上の権限
ALTER MODEL MONITOR	モデルモニター上の MODIFY
DROP MODEL MONITOR	モデルモニター上の OWNERSHIP

以下の SQL テンプレートを使用して、モデルモニターからドリフトメトリックを取得してください。

SELECT *
FROM TABLE(MODEL_MONITOR_DRIFT_METRIC (
                                        <model_monitor_name>,
                                        <drift_metric_name>,
                                        <column_name>,
                                        <granularity>,
                                        <start_time>,
                                        <end_time>,
                                        <extra_args>
                                      )
          )

Copy

以下の SQL テンプレートを使用して、モデルモニターからパフォーマンスメトリックを取得してください。

SELECT *
FROM TABLE(MODEL_MONITOR_PERFORMANCE_METRIC (
                                        <model_monitor_name>,
                                        <metric_name>,
                                        <granularity>,
                                        <start_time>,
                                        <end_time>,
                                        <extra_args>
                                      )
          )

Copy

以下の SQL テンプレートを使用して、モデルモニターから統計メトリックを取得してください。

SELECT *
FROM TABLE(MODEL_MONITOR_STAT_METRIC (
                                        <model_monitor_name>,
                                        <metric_name>,
                                        <granularity>,
                                        <start_time>,
                                        <end_time>,
                                        <extra_args>
                                      )
          )

Copy

セグメント固有のメトリックのクエリ¶

特定のセグメントのメトリックのクエリには、<extra_args> parameter with a JSON format that specifies the segment column and value. The <extra_args> パラメーターを使用します（オプション）。指定しない場合、クエリはすべてのデータのメトリックを返します（非セグメントクエリ）。

注釈

現在、セグメントクエリは、クエリごとに1つのセグメント列：値のペアのみをサポートしています。1回の関数呼び出しで複数のセグメントを同時にクエリすることはできません。

セグメントクエリの場合は、 <extra_args> パラメーターにこの形式を使用します。

'{"SEGMENTS": [{"column": "<segment_column_name>", "value": "<segment_value>"}]}'

Copy

たとえば、プレミアムなお客様のドリフトメトリックのみを取得するには、次を実行します。

SELECT *
FROM TABLE(MODEL_MONITOR_DRIFT_METRIC (
                                        'my_customer_monitor',
                                        'PSI',
                                        'FEATURE_1',
                                        'DAY',
                                        '2024-01-01'::TIMESTAMP_NTZ,
                                        '2024-01-31'::TIMESTAMP_NTZ,
                                        '{"SEGMENTS": [{"column": "CUSTOMER_TIER", "value": "PREMIUM"}]}'
                                      )
          )

Copy

セグメントクエリの結果テーブルには、次の2つの追加の列が含まれます。

SEGMENT_COLUMN:メトリックが計算されるセグメント列の名前（または非セグメントクエリの NULL）
SEGMENT_VALUE:メトリックが計算されるセグメント値（または非セグメントクエリの NULL）

セグメントの詳細については、モデルモニターへのセグメントの追加をご参照ください。

モニタリングメトリックのアラートと通知をセットできます。詳細については、アラートおよび通知をご参照ください。

既知の制限¶

Modeling Monitorには以下の制限があります。

モニターは、モデルのバージョンと同じデータベースとスキーマに存在する必要があります。
単出力の回帰モデルとバイナリ分類モデルのみがサポートされています。
少なくとも1つの予測列（クラスまたはスコア）が必要です。実際の列はオプションですが、精度メトリックには必要です。
ドリフト計算にはベースラインデータが必要です。ベースラインデータがない場合、ベースラインデータを追加するには、モニターを削除して再度作成する必要があります。
各列はモニター内で一度しか使用できません。例えば、 ID 列と予測列として同じ列を使用することはできません。
モニターの失敗や停止を避けるため、データには無効な値（null、 NaNs、+/-Inf、0-1以外の確率スコア、バイナリでないクラス、 PREDICTION_CLASS_COLUMNS 列に2つ以上のクラス）を含めることはできません。
タイムスタンプ列は TIMESTAMP_NTZ のタイプでなければなりません。予測列と実際列は NUMBER でなければなりません。
集計ウィンドウは日単位で指定する必要があります。
最大500の機能をモニターできます。
最大250のモニターを作成できます。
セグメント列は文字列のカテゴリ列のみである必要があります。
モデルモニターごとに最大5つのセグメント列（ハード制限）。
各セグメント列は、25個以下の一意の値でなければなりません（推奨される制限）。
セグメント値は大文字と小文字が区別されており、特殊文字はセグメントクエリではサポートされていません。
セグメントクエリでは、 NULL フィルタリングはサポートされていません。

コストの考慮事項¶

仮想ウェアハウスコンピュート:

モデルモニターは仮想ウェアハウスを使用するため、作成時や更新のたびにコストがかかります。

Snowsightダッシュボードをロードする際にも仮想ウェアハウスを使用するため、追加料金が発生します。

ストレージ：

モデルモニターは、ソースデータをアカウントに保存されたテーブルに実体化します。

セグメント列は、アカウントに保存されている追加のマテリアライズドテーブルを追加します。

クラウドサービスコンピュート:

モデルモニターはクラウドサービスのコンピュートを使って、基になるベースオブジェクトが変更されたときにリフレッシュをトリガーします。クラウドサービスの計算コストは、1日のクラウドサービスコストがアカウントの1日のウェアハウスコストの10％を超える場合にのみ請求されます。