EvaluateRagAnswerCorrectness 2025.10.9.21¶

バンドル¶

com.snowflake.openflow.runtime | runtime-rag-evaluation-processors-nar

説明¶

F1スコア、コサイン類似度、解答の正しさなどのメトリクスを計算することで、Retrieval-Augmented Generation (RAG) コンテキストで生成された解答の正しさを評価します。プロセッサーは、 LLM (たとえば、 OpenAI の GPT) を使用して、生成された答えをグランドトゥルースに照らして評価します。

タグ¶

ai, answer correctness, evaluation, llm, nlp, openai, openflow, rag

入力要件¶

REQUIRED

機密動的プロパティをサポート¶

false

プロパティ¶

プロパティ	説明
コサイン類似度重み	答えの正しさを計算する際に、余弦類似度に適用する重み (0.0 から 1.0 の間)
評価結果記録パス	RecordPath に評価結果を書きます。
F1 スコアウエイト	正解率を計算する際にF1スコアに適用する重み (0.0から1.0の間)
生成されたアンサーの記録パス	記録内の回答フィールドへのパス。
生成されたアンサーベクトルの記録パス	記録内の回答ベクトルフィールドへのパス。
グランドトゥルースの記録パス	記録内のグランドトゥルースフィールドへの RecordPath。
グランド・トゥルースベクトル記録パス	記録内の真実ベクトルフィールドへのパス。
LLM プロバイダーサービス	LLM に評価プロンプトを送信するプロバイダーサービス。
質問記録パス	記録の質問フィールドの RecordPath。
Record Reader	FlowFile を読むために使用するRecord Reader。
Record Writer	結果の書き込みに使用するRecord Writer。

リレーションシップ¶

名前	説明
failure	処理できずこのリレーションシップにルーティングされる FlowFiles
success	正常に処理されると、このリレーションシップにルーティングされる FlowFiles

属性の書き込み¶

名前	説明
average.f1Score	全記録の平均F1スコア。
average.cosineSim	グランドトゥルースとアンサーエンベッディングの平均余弦類似度。
average.answerCorrectness	全記録の計算された平均正解スコア。
json.parse.failures	JSON 解析に失敗した数。

ユースケース¶

このプロセッサーを使用して、 LLM によって生成された回答の品質を、真実の回答と比較して評価し、 RAG システムのパフォーマンスを監視および改善するために使用できるメトリクスを提供します。