EvaluateRagAnswerCorrectness 2025.5.31.15

Pacote

com.snowflake.openflow.runtime | runtime-rag-evaluation-processors-nar

Descrição

Avalia a correção das respostas geradas em um contexto de geração aumentada por recuperação (RAG), calculando métricas como pontuação F1, similaridade de cosseno e correção da resposta. O processador usa o LLM (por exemplo, o GPT da OpenAI) para avaliar a resposta gerada em relação à verdade fundamental.

Tags

ai, answer correctness, evaluation, llm, nlp, openai, openflow, rag

Requisito de entrada

REQUIRED

Oferece suporte a propriedades dinâmicas confidenciais

falso

Propriedades

Propriedade

Descrição

Peso da similaridade de cosseno

O peso a ser aplicado à similaridade de cosseno ao calcular a correção da resposta (entre 0,0 e 1,0)

Caminho de registro dos resultados da avaliação

Você deve escrever os resultados da avaliação para RecordPath.

Peso da pontuação F1

O peso a ser aplicado à pontuação F1 ao calcular a correção da resposta (entre 0,0 e 1,0)

Caminho do registro de resposta gerado

O caminho para o campo de resposta no registro

Caminho de registro do vetor de resposta gerado

O caminho para o campo vetorial de resposta no registro.

Caminho de registro da verdade fundamental

O RecordPath para o campo de verdade fundamental no registro.

Caminho de registro do vetor de verdade fundamental

O caminho para o campo vetorial da verdade fundamental no registro.

Serviço do provedor de LLM

O serviço de provedor para enviar prompts de avaliação ao LLM

Caminho de registro da pergunta

O RecordPath para o campo de pergunta no registro.

Record Reader

O Record Reader a ser usado para ler o FlowFile.

Record Writer

O Record Writer a ser usado para gravar os resultados.

Relações

Nome

Descrição

failure

FlowFiles que não podem ser processados são encaminhados para essa relação

success

FlowFiles que são processados com sucesso são encaminhados para essa relação

Grava atributos

Nome

Descrição

average.f1Score

A pontuação média de F1 computada em todos os registros.

average.cosineSim

A similaridade média de cosseno entre a verdade fundamental e as incorporações de resposta.

average.answerCorrectness

A pontuação média de correção da resposta computada em todos os registros.

json.parse.failures

Número de falhas de análise do JSON encontradas.

Casos de uso

Use esse processador para avaliar a qualidade das respostas geradas por um LLM em comparação com as respostas da verdade fundamental, fornecendo métricas que podem ser usadas para monitorar e melhorar o desempenho dos sistemas RAG.