EvaluateRagAnswerCorrectness 2025.5.31.15

Bundle

com.snowflake.openflow.runtime | runtime-rag-evaluation-processors-nar

Description

Évalue l’exactitude des réponses générées dans un contexte de génération assistée par la recherche (RAG) en calculant des mesures telles que le score F1, la similarité cosinusoïdale et l’exactitude de la réponse. Le processeur utilise un site LLM (par exemple, OpenAI de GPT) pour évaluer la réponse générée par rapport à la vérité de terrain.

Balises

ai, answer correctness, evaluation, llm, nlp, openai, openflow, rag

Exigences en matière d’entrées

REQUIRED

Prend en charge les propriétés dynamiques sensibles

false

Propriétés

Propriété

Description

Poids de similarité cosinus

Le poids à appliquer à la similarité cosinusoïdale lors du calcul de la justesse de la réponse (entre 0,0 et 1,0)

Chemin d’enregistrement des résultats d’évaluation

Le RecordPath pour écrire les résultats de l’évaluation.

Poids de la note F1

Le poids à appliquer à la note F1 lors du calcul de l’exactitude de la réponse (entre 0,0 et 1,0)

Chemin de l’enregistrement de la réponse générée

Le chemin vers le champ de la réponse dans l’enregistrement

Chemin d’enregistrement du vecteur de réponse généré

Le chemin vers le champ de vecteurs de réponse dans l’enregistrement.

Chemin d’enregistrement de la référence réelle

Le RecordPath vers le champ de la référence réelle dans l’enregistrement.

Chemin d’enregistrement du vecteur de référence réelle

Le chemin vers le champ du vecteur de référence réelle dans l’enregistrement.

Service fournisseur LLM

Le service fournisseur pour l’envoi d’invites d’évaluation à LLM

Chemin de l’enregistrement de la question

Le RecordPath du champ de la question dans l’enregistrement.

Record Reader

Le Record Reader à utiliser pour lire le FlowFile.

Record Writer

Le Record Writer à utiliser pour écrire les résultats.

Relations

Nom

Description

failure

Les FlowFiles qui ne peuvent être traités sont routés vers cette relation

success

Les FlowFiles qui sont traités avec succès sont routés vers cette relation

Écrit les attributs

Nom

Description

average.f1Score

La note F1 moyenne calculée sur l’ensemble des enregistrements.

average.cosineSim

La similarité moyenne en cosinus entre la référence réelle et l’intégration de la réponse.

average.answerCorrectness

La note moyenne d’exactitude de la réponse calculée sur l’ensemble des enregistrements.

json.parse.failures

Le nombre d’échecs d’analyse JSON rencontrés.

Cas d’utilisation

Utilisez ce processeur pour évaluer la qualité des réponses générées par un LLM par rapport aux réponses de la référence réelle, en fournissant des mesures qui peuvent être utilisées pour contrôler et améliorer les performances des systèmes RAG.