EvaluateRagAnswerCorrectness 2025.5.31.15

번들

com.snowflake.openflow.runtime | runtime-rag-evaluation-processors-nar

설명

F1 점수, 코사인 유사도 및 답변 정확도와 같은 메트릭을 계산하여 검색 증강 생성(RAG) 컨텍스트에서 생성된 답변의 정확성을 평가합니다. 프로세서는 LLM (예: OpenAI 의 GPT)를 사용하여 생성된 답변을 ground truth와 비교하여 평가합니다.

태그

ai, answer correctness, evaluation, llm, nlp, openai, openflow, rag

입력 요구 사항

REQUIRED

민감한 동적 속성 지원

false

속성

속성

설명

Cosine Similarity Weight

정답 정답률 계산 시 코사인 유사도에 적용할 가중치(0.0~1.0 사이)

Evaluation Results Record Path

평가 결과를 작성하려면 RecordPath 로 이메일을 보내십시오.

F1 Score Weight

정답 정답률 계산 시 F1 점수에 적용할 가중치(0.0~1.0)

Generated Answer Record Path

레코드의 답변 필드 경로

Generated Answer Vector Record Path

레코드에서 답변 벡터 필드로 이동하는 경로입니다.

Ground Truth Record Path

레코드에서 ground truth 필드의 RecordPath 입니다.

Ground Truth Vector Record Path

레코드에서 ground truth 벡터 필드의 경로입니다.

LLM Provider Service

평가 프롬프트를 LLM 으로 보내는 공급자 서비스

Question Record Path

레코드에서 질문 필드의 RecordPath 입니다.

Record Reader

FlowFile 을 읽는 데 사용할 Record Reader입니다.

Record Writer

결과 작성에 사용할 Record Writer입니다.

관계

이름

설명

실패

처리할 수 없는 FlowFiles 은 이 관계로 라우팅됩니다

성공

성공적으로 처리된 FlowFiles 은 이 관계로 라우팅됩니다

Writes 특성

이름

설명

average.f1Score

모든 레코드에 대해 계산된 F1 평균 점수입니다.

average.cosineSim

ground truth와 답변 임베딩 간의 평균 코사인 유사도입니다.

average.answerCorrectness

모든 레코드에 대해 계산된 평균 정답률 점수입니다.

json.parse.failures

발생한 JSON 구문 분석 실패 횟수입니다.

사용 사례

이 프로세서를 사용하여 LLM 에서 생성된 답변의 품질을 ground truth 답변과 비교하여 평가하여 RAG 시스템의 성능을 모니터링하고 개선하는 데 사용할 수 있는 메트릭을 제공합니다.