EvaluateRagAnswerCorrectness 2025.5.31.15¶
Bundle¶
com.snowflake.openflow.runtime | runtime-rag-evaluation-processors-nar
Beschreibung¶
Bewertet die Korrektheit der generierten Antworten in einem Retrieval-Augmented-Generation (RAG)-Kontext durch die Berechnung von Metriken wie F1-Score, Kosinusähnlichkeit und Korrektheit der Antworten. Der Prozessor verwendet ein LLM (z .B. GPT von OpenAI), um die generierte Antwort anhand der Grundwahrheit zu bewerten.
Eingabeanforderung¶
REQUIRED
Unterstützt sensible dynamische Eigenschaften¶
false
Eigenschaften¶
Eigenschaft |
Beschreibung |
---|---|
Cosine Similarity Weight |
Das Gewicht, das bei der Berechnung der Antwortkorrektheit auf die Kosinusähnlichkeit angewendet wird (zwischen 0,0 und 1,0). |
Evaluation Results Record Path |
Der RecordPath, in den die Ergebnisse der Auswertung geschrieben werden sollen. |
F1 Score Weight |
Das Gewicht, das bei der Berechnung der Antwortrichtigkeit auf den F1-Wert angewendet wird (zwischen 0,0 und 1,0) |
Generated Answer Record Path |
Der Pfad zum Antwortfeld im Datensatz |
Generated Answer Vector Record Path |
Der Pfad zum Antwortvektorfeld im Datensatz |
Ground Truth Record Path |
Der RecordPath zum Feld „Ground Truth“ im Datensatz |
Ground Truth Vector Record Path |
Der Pfad zum „Ground Truth Vector“-Feld im Datensatz |
LLM Provider Service |
Der Anbieterdienst zum Senden von Bewertungsaufforderungen an LLM |
Question Record Path |
Der RecordPath zum Fragefeld im Datensatz |
Record Reader |
Der Record Reader, der zum Lesen des FlowFile verwendet wird. |
Record Writer |
Der Record Writer, der zum Schreiben der Ergebnisse verwendet wird. |
Beziehungen¶
Name |
Beschreibung |
---|---|
failure |
FlowFiles, die nicht verarbeitet werden können, werden an diese Beziehung weitergeleitet. |
success |
FlowFiles, die erfolgreich bearbeitet wurden, werden an diese Beziehung weitergeleitet. |
Schreibt Attribute¶
Name |
Beschreibung |
---|---|
average.f1Score |
Der durchschnittliche F1-Wert, berechnet über alle Datensätze. |
average.cosineSim |
Die durchschnittliche Kosinusähnlichkeit zwischen den Ground-Truth- und Antwort-Einbettungen. |
average.answerCorrectness |
Der durchschnittliche Wert für die Korrektheit der Antworten, der für alle Datensätze berechnet wird. |
json.parse.failures |
Anzahl der aufgetretenen JSON-Parse-Fehler |
Anwendungsfälle¶
Verwenden Sie diesen Prozessor, um die Qualität der von LLM generierten Antworten im Vergleich zu den tatsächlichen Antworten zu bewerten. So erhalten Sie Metriken, die Sie zur Überwachung und Verbesserung der Leistung von RAG-Systemen verwenden können. |