EvaluateRagAnswerCorrectness 2025.5.31.15

バンドル

com.snowflake.openflow.runtime | runtime-rag-evaluation-processors-nar

説明

F1スコア、コサイン類似度、解答の正しさなどのメトリクスを計算することで、Retrieval-Augmented Generation (RAG) コンテキストで生成された解答の正しさを評価します。プロセッサーは、 LLM (たとえば、 OpenAI の GPT) を使用して、生成された答えをグランドトゥルースに照らして評価します。

タグ

ai, answer correctness, evaluation, llm, nlp, openai, openflow, rag

入力要件

REQUIRED

機密動的プロパティをサポート

false

プロパティ

プロパティ

説明

コサイン 類似度 重み

答えの正しさを計算する際に、余弦類似度に適用する重み (0.0 から 1.0 の間)

評価 結果 記録 パス

RecordPath に評価結果を書きます。

F1 スコア ウエイト

正解率を計算する際にF1スコアに適用する重み (0.0から1.0の間)

生成されたアンサーの記録 パス

記録内の回答フィールドへのパス。

生成されたアンサーベクトルの記録パス

記録内の回答ベクトルフィールドへのパス。

グランドトゥルースの記録パス

記録内のグランドトゥルース フィールドへの RecordPath。

グランド・トゥルース ベクトル記録パス

記録内の真実ベクトルフィールドへのパス。

LLM プロバイダーサービス

LLM に評価プロンプトを送信するプロバイダーサービス。

質問 記録パス

記録の質問フィールドの RecordPath。

Record Reader

FlowFile を読むために使用するRecord Reader。

Record Writer

結果の書き込みに使用するRecord Writer。

リレーションシップ

名前

説明

failure

処理できずこのリレーションシップにルーティングされる FlowFiles

success

正常に処理されると、このリレーションシップにルーティングされる FlowFiles

属性の書き込み

名前

説明

average.f1Score

全記録の平均F1スコア。

average.cosineSim

グランドトゥルースとアンサーエンベッディングの平均余弦類似度。

average.answerCorrectness

全記録の計算された平均正解スコア。

json.parse.failures

JSON 解析に失敗した数。

ユースケース

このプロセッサーを使用して、 LLM によって生成された回答の品質を、真実の回答と比較して評価し、 RAG システムのパフォーマンスを監視および改善するために使用できるメトリクスを提供します。