2026年3月13日：Cortex Agent評価（一般提供）¶

Snowflakeは、エージェントの動作とパフォーマンスをモニターできるCortex Agent評価が提供されました。グラウンドトゥルースベースと参照なしの評価メトリックの両方に対してエージェントを評価します。評価中はエージェントのアクティビティがトレースされモニターされるため、プロセスの各ステップが最終目標に向かって進んでいることを確認できます。

Snowflakeは、エージェントを評価するために次のメトリックを提供します。

回答の正しさ -- 準備されたクエリに対するエージェントからの回答が、期待される回答とどの程度一致しているか。このメトリックは、Cortex Agentの基盤となるデータセットが静的である場合に最も役に立ちます。
論理整合性 -- エージェントの指示、計画、ツール呼び出しにおける一貫性を測定します。このメトリックは*参照なし*です。つまり、評価のためにデータセットに情報を準備する必要はありません。
カスタムメトリック -- Snowflakeではカスタムメトリックを作成することもできます。プロンプトとスコアリングシステムを定義することで、LLMの判断プロセスを活用して、追加の一貫性チェックやドメイン固有の要件への準拠を実行できます。

Cortex Agentの評価を作成して実行する方法について詳しくは、:doc:`/user-guide/snowflake-cortex/cortex-agents-evaluations`を参照してください。