EvaluateRagAnswerCorrectness 2025.5.31.15¶
Pacote¶
com.snowflake.openflow.runtime | runtime-rag-evaluation-processors-nar
Descrição¶
Avalia a correção das respostas geradas em um contexto de geração aumentada por recuperação (RAG), calculando métricas como pontuação F1, similaridade de cosseno e correção da resposta. O processador usa o LLM (por exemplo, o GPT da OpenAI) para avaliar a resposta gerada em relação à verdade fundamental.
Requisito de entrada¶
REQUIRED
Oferece suporte a propriedades dinâmicas confidenciais¶
falso
Propriedades¶
Propriedade |
Descrição |
---|---|
Peso da similaridade de cosseno |
O peso a ser aplicado à similaridade de cosseno ao calcular a correção da resposta (entre 0,0 e 1,0) |
Caminho de registro dos resultados da avaliação |
Você deve escrever os resultados da avaliação para RecordPath. |
Peso da pontuação F1 |
O peso a ser aplicado à pontuação F1 ao calcular a correção da resposta (entre 0,0 e 1,0) |
Caminho do registro de resposta gerado |
O caminho para o campo de resposta no registro |
Caminho de registro do vetor de resposta gerado |
O caminho para o campo vetorial de resposta no registro. |
Caminho de registro da verdade fundamental |
O RecordPath para o campo de verdade fundamental no registro. |
Caminho de registro do vetor de verdade fundamental |
O caminho para o campo vetorial da verdade fundamental no registro. |
Serviço do provedor de LLM |
O serviço de provedor para enviar prompts de avaliação ao LLM |
Caminho de registro da pergunta |
O RecordPath para o campo de pergunta no registro. |
Record Reader |
O Record Reader a ser usado para ler o FlowFile. |
Record Writer |
O Record Writer a ser usado para gravar os resultados. |
Relações¶
Nome |
Descrição |
---|---|
failure |
FlowFiles que não podem ser processados são encaminhados para essa relação |
success |
FlowFiles que são processados com sucesso são encaminhados para essa relação |
Grava atributos¶
Nome |
Descrição |
---|---|
average.f1Score |
A pontuação média de F1 computada em todos os registros. |
average.cosineSim |
A similaridade média de cosseno entre a verdade fundamental e as incorporações de resposta. |
average.answerCorrectness |
A pontuação média de correção da resposta computada em todos os registros. |
json.parse.failures |
Número de falhas de análise do JSON encontradas. |
Casos de uso¶
Use esse processador para avaliar a qualidade das respostas geradas por um LLM em comparação com as respostas da verdade fundamental, fornecendo métricas que podem ser usadas para monitorar e melhorar o desempenho dos sistemas RAG. |