Contexto
La respuesta a preguntas fundamentadas (QA) suele ser el último paso de un proceso RAG: dada una pregunta y un conjunto de documentos extraídos del corpus, un LLM debe generar una respuesta. Esperamos que el LLM cite de qué documento procede cada dato, tal y como se muestra a continuación. Cuando no haya una respuesta precisa en los documentos, el LLM debe indicarlo en su respuesta. En ese caso, si hay información relacionada disponible en los documentos, el LLM puede añadirla a la respuesta para mostrar que el corpus no está completamente fuera de tema con respecto a la pregunta.

Esta tarea es difícil de evaluar debido a la gran variedad de errores que puede contener una respuesta, como información superflua, falta de detalles relevantes en las referencias, afirmaciones incorrectas de que ningún documento responde a la pregunta, errores de citación, etc. Se han realizado algunos intentos para definir métricas y automatizar la evaluación de esta tarea (RAGAS, DeepEval), sin embargo, estos enfoques no cubrían todos los modos de fallo que nos interesaban. La mayoría de estos enfoques dependen en gran medida de la LLM como juez método. Aunque esta técnica puede ser muy eficaz, es fundamental evaluar primero la capacidad de un LLM para evaluar con precisión esta tarea de Grounded QA con respecto a nuestras métricas. Es tentador considerar el uso de un LLM para verificar las evaluaciones generadas por un evaluador LLM (que estaba evaluando las respuestas del LLM). Sin embargo, esto podría conducir rápidamente a un sinfín de evaluaciones de IA sobre IA. Por eso hemos desarrollado GroUSE: un conjunto de pruebas unitarias diseñado para evaluar a los evaluadores. (pronunciado «graouse»).

El conjunto de datos GroUSE
GroUSE (Grounded QA Unitary Scoring of Evaluators) es un conjunto de datos de pruebas unitarias que se utiliza para comprobar si un evaluador Grounded QA está dando las puntuaciones que esperamos. Cada prueba contiene:
-
- una muestra de control de calidad fundamentada (que consiste en una pregunta y referencias),
- una respuesta veraz a la pregunta,
- una respuesta para evaluar (que puede contener o no un error),
- una lista de las calificaciones previstas.

En nuestro marco, los jueces LLM evalúan la calidad de una respuesta QA fundamentada según seis métricas destinadas a capturar todos los modos de fallo de la tarea:
- La pertinencia de la respuestaevalúa la relevancia de la información proporcionada en la respuesta con respecto a la pregunta, utilizando una escala Likert (de 1 a 5).
- La exhaustividadtambién utiliza una escala Likert para evaluar si toda la información relevante de los documentos está presente en la respuesta.
- La fidelidades una puntuación binaria que comprueba si todos los datos de la respuesta son precisos y están correctamente atribuidos al documento correspondiente.
- La utilidadsolo se evalúa cuando la respuesta indica que no hay una respuesta precisa en las referencias y proporciona información relacionada. Se trata de una puntuación binaria que determina si la información adicional es realmente útil y relevante para la pregunta.
- La aceptación positivayel rechazo negativoson puntuaciones binarias que indican un verdadero positivo y un verdadero negativo, respectivamente, a la hora de identificar si la pregunta tiene respuesta.
El conjunto de datos GroUSE comprende144 muestras organizadas en 9 conjuntos. Cada conjunto aborda la misma pregunta y se basa en referencias muy similares, con ligeras variaciones en las respuestas. Estas pequeñas modificaciones se adaptan a una tipología predefinida de 16 tipos de pruebas, diseñadas para evaluar si un evaluador penaliza correctamente todos los modos de fallo y premia las respuestas correctas en una amplia gama de escenarios. La imagen siguiente muestra cuatro muestras junto con sus tipos de prueba correspondientes. Por ejemplo, el tipo de prueba 14 evalúa si la puntuación de fidelidad se establece en 0 cuando hay un error de cita.

GroUSE incluye un conjunto adicional de pruebas destinadas a ayudar a los usuarios a diseñar sus indicaciones y tratar de obtener el mejor evaluador posible antes de comprobar su rendimiento en los otros nueve conjuntos. Utilizando este «conjunto de entrenamiento», iteramos las indicaciones, haciendo todo lo posible por crear las mejores indicaciones posibles para cada uno de los modelos probados antes de medir cuántas pruebas superaban. El «conjunto de entrenamiento» se mantiene pequeño para imitar la situación real en la que el usuario dispone de un número limitado de muestras para optimizar sus indicaciones.
Evaluación comparativa de las capacidades de evaluación de los modelos
La estructura del conjunto de datos GroUSE permite presentar los resultados de un modelo en formato matricial, en el que cada fila representa el rendimiento del modelo en un tipo de prueba específico y cada columna corresponde a su rendimiento en una pregunta concreta. Este formato revela, por ejemplo, que GPT-4 tiene dificultades con el tipo de prueba 16, que implica una respuesta que contiene información que distorsiona una de las referencias, lo que da lugar a una fidelidad esperada baja, pero una buena relevancia y una buena exhaustividad. Además, Llama-3 70B tiene más dificultades con el tipo de prueba 7, una prueba en la que incluimos un dato *absurdo* en las referencias y mencionamos este dato en la respuesta. A pesar de que el dato parece incorrecto, dado que está presente en las referencias, se esperan puntuaciones altas. El tipo de prueba 7 permite comprobar que el modelo no utiliza su conocimiento interno y se refiere únicamente a las referencias para evaluar las métricas.

Para obtener una visión más compacta, también podemos calcular el porcentaje de pruebas que supera cada modelo para cada métrica:

Los modelos evaluadores más potentes son GPT-4 para modelos de pesos cerrados, con una tasa de aprobados del 95 %, y Llama-3 70b para pesos abiertos, con un 79 %. El rendimiento humano en este conjunto de datos es del 98 %. La métrica más difícil de evaluar es la exhaustividad, tanto para los LLM como para los humanos.
Mejorar un modelo de código abierto
Para demostrar que la brecha entre los modelos de peso abierto y peso cerrado puede reducirse, ajustamos un modelo Llama-3 8b basándonos en las evaluaciones realizadas por GPT-4. Con el objetivo de desarrollar un modelo capaz de resolver la tarea en una sola llamada, concatenamos las respuestas específicas de la métrica de GPT-4 en una sola salida y seguimos un proceso similar para la entrada, lo que dio como resultado un conjunto de datos de 1200 muestras. Ajustamos el Llama-3 8b en 1000 muestras de este conjunto de datos y utilizamos el resto como conjunto de prueba. Medimos la progresión del modelo tanto en GroUSE como midiendo la correlación entre las calificaciones de GPT-4 y las calificaciones del modelo ajustado en el conjunto de prueba.

El ajuste fino mejora significativamente las capacidades de evaluación de Llama-3, como lo demuestra la mejora sustancial en las tasas de aprobación, que pasan de un 40 % a un 83 %. Se observa un progreso similar en las medidas de correlación, aunque cabe señalar que el modelo ajustado tiene niveles de correlación similares a los de Llama-3 8b sin entrenamiento previo, con la evaluación de una métrica por prompt. Aunque este enfoque ha demostrado mejoras significativas, sería conveniente explorar los efectos del ajuste de modelos más grandes, lo que podría dar lugar a un rendimiento aún mejor.
Mejorar un modelo de código abierto
Nuestros resultados revelan una discrepancia entre las tasas de aprobación de GroUSE y la correlación con las calificaciones de GPT-4. Mientras que Prometheus 2 7b y Llama-3 8b ajustado muestran correlaciones similares con GPT-4 en cuanto a la relevancia de las respuestas, sus tasas de aprobación de GroUSE difieren significativamente, con Llama-3 8b superando a Prometheus 2 7b. Las matrices de confusión revelan que Prometheus 2 tiene una mejor concordancia general con GPT-4, pero tiene dificultades con los casos extremos (casos 1, 5 y NaN), mientras que Llama-3, ajustado con precisión, destaca en los casos extremos, pero carece de correlación en los intermedios.

Este hallazgo sugiere que una alta correlación con los juicios de GPT-4 no equivale necesariamente a una alta tasa de aprobados en las pruebas unitarias. Un modelo de juicio puede compartir las mismas preferencias relativas que GPT-4 (indicadas por una fuerte correlación de rangos), pero seguir careciendo de la misma calibración en casos de referencia precisos (respuestas muy buenas, errores sutiles, etc.), lo que da lugar a un rendimiento deficiente en las pruebas unitarias de juicio.
Conclusión
Para concluir brevemente:
- GroUSE es un conjunto de datos que permite comprobar si un modelo atribuye la puntuación esperada en una amplia gama de casos.
- Utilizando el enfoque LLM-as-a-Judge, GPT-4 fue el evaluador de pesos cerrados más potente y Llama-3 70B el mejor evaluador de pesos abiertos.
- Hemos demostrado que las capacidades de evaluación de un modelo pueden mejorar con el ajuste fino de las evaluaciones de un modelo más sólido.
- Demostramos que la correlación con un evaluador sólido no implica necesariamente una buena puntuación en las pruebas unitarias. Estas medidas son complementarias: la correlación con GPT-4 indica concordancia en la preferencia relativa, mientras que la tasa de aprobados de GroUSE mide la calibración precisa en casos de referencia prácticos.
Si desea evaluar su canalización RAG con nuestras indicaciones GPT-4, o incluso metaevaluar su evaluador RAG en GroUSE, hay un paquete Python disponible engithub.com/illuin-tech/grouse.
BibTeX
@misc{muller2024grouse,
title={GroUSE: A Benchmark to Evaluate Evaluators in Grounded Question Answering},
author={Sacha Muller and António Loison and Bilel Omrani and Gautier Viaud},
year={2024},
eprint={2409.06595},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2409.06595},
}










