EvaluateRagAnswerCorrectness 2025.5.31.15

Bundle

com.snowflake.openflow.runtime | runtime-rag-evaluation-processors-nar

Beschreibung

Bewertet die Korrektheit der generierten Antworten in einem Retrieval-Augmented-Generation (RAG)-Kontext durch die Berechnung von Metriken wie F1-Score, Kosinusähnlichkeit und Korrektheit der Antworten. Der Prozessor verwendet ein LLM (z .B. GPT von OpenAI), um die generierte Antwort anhand der Grundwahrheit zu bewerten.

Tags

ai, answer correctness, evaluation, llm, nlp, openai, openflow, rag

Eingabeanforderung

REQUIRED

Unterstützt sensible dynamische Eigenschaften

false

Eigenschaften

Eigenschaft

Beschreibung

Cosine Similarity Weight

Das Gewicht, das bei der Berechnung der Antwortkorrektheit auf die Kosinusähnlichkeit angewendet wird (zwischen 0,0 und 1,0).

Evaluation Results Record Path

Der RecordPath, in den die Ergebnisse der Auswertung geschrieben werden sollen.

F1 Score Weight

Das Gewicht, das bei der Berechnung der Antwortrichtigkeit auf den F1-Wert angewendet wird (zwischen 0,0 und 1,0)

Generated Answer Record Path

Der Pfad zum Antwortfeld im Datensatz

Generated Answer Vector Record Path

Der Pfad zum Antwortvektorfeld im Datensatz

Ground Truth Record Path

Der RecordPath zum Feld „Ground Truth“ im Datensatz

Ground Truth Vector Record Path

Der Pfad zum „Ground Truth Vector“-Feld im Datensatz

LLM Provider Service

Der Anbieterdienst zum Senden von Bewertungsaufforderungen an LLM

Question Record Path

Der RecordPath zum Fragefeld im Datensatz

Record Reader

Der Record Reader, der zum Lesen des FlowFile verwendet wird.

Record Writer

Der Record Writer, der zum Schreiben der Ergebnisse verwendet wird.

Beziehungen

Name

Beschreibung

failure

FlowFiles, die nicht verarbeitet werden können, werden an diese Beziehung weitergeleitet.

success

FlowFiles, die erfolgreich bearbeitet wurden, werden an diese Beziehung weitergeleitet.

Schreibt Attribute

Name

Beschreibung

average.f1Score

Der durchschnittliche F1-Wert, berechnet über alle Datensätze.

average.cosineSim

Die durchschnittliche Kosinusähnlichkeit zwischen den Ground-Truth- und Antwort-Einbettungen.

average.answerCorrectness

Der durchschnittliche Wert für die Korrektheit der Antworten, der für alle Datensätze berechnet wird.

json.parse.failures

Anzahl der aufgetretenen JSON-Parse-Fehler

Anwendungsfälle

Verwenden Sie diesen Prozessor, um die Qualität der von LLM generierten Antworten im Vergleich zu den tatsächlichen Antworten zu bewerten. So erhalten Sie Metriken, die Sie zur Überwachung und Verbesserung der Leistung von RAG-Systemen verwenden können.