EvaluateRagAnswerCorrectness 2025.5.31.15¶
バンドル¶
com.snowflake.openflow.runtime | runtime-rag-evaluation-processors-nar
説明¶
F1スコア、コサイン類似度、解答の正しさなどのメトリクスを計算することで、Retrieval-Augmented Generation (RAG) コンテキストで生成された解答の正しさを評価します。プロセッサーは、 LLM (たとえば、 OpenAI の GPT) を使用して、生成された答えをグランドトゥルースに照らして評価します。
入力要件¶
REQUIRED
機密動的プロパティをサポート¶
false
プロパティ¶
プロパティ |
説明 |
---|---|
コサイン 類似度 重み |
答えの正しさを計算する際に、余弦類似度に適用する重み (0.0 から 1.0 の間) |
評価 結果 記録 パス |
RecordPath に評価結果を書きます。 |
F1 スコア ウエイト |
正解率を計算する際にF1スコアに適用する重み (0.0から1.0の間) |
生成されたアンサーの記録 パス |
記録内の回答フィールドへのパス。 |
生成されたアンサーベクトルの記録パス |
記録内の回答ベクトルフィールドへのパス。 |
グランドトゥルースの記録パス |
記録内のグランドトゥルース フィールドへの RecordPath。 |
グランド・トゥルース ベクトル記録パス |
記録内の真実ベクトルフィールドへのパス。 |
LLM プロバイダーサービス |
LLM に評価プロンプトを送信するプロバイダーサービス。 |
質問 記録パス |
記録の質問フィールドの RecordPath。 |
Record Reader |
FlowFile を読むために使用するRecord Reader。 |
Record Writer |
結果の書き込みに使用するRecord Writer。 |
リレーションシップ¶
名前 |
説明 |
---|---|
failure |
処理できずこのリレーションシップにルーティングされる FlowFiles |
success |
正常に処理されると、このリレーションシップにルーティングされる FlowFiles |
属性の書き込み¶
名前 |
説明 |
---|---|
average.f1Score |
全記録の平均F1スコア。 |
average.cosineSim |
グランドトゥルースとアンサーエンベッディングの平均余弦類似度。 |
average.answerCorrectness |
全記録の計算された平均正解スコア。 |
json.parse.failures |
JSON 解析に失敗した数。 |
ユースケース¶
このプロセッサーを使用して、 LLM によって生成された回答の品質を、真実の回答と比較して評価し、 RAG システムのパフォーマンスを監視および改善するために使用できるメトリクスを提供します。 |