GroUse: Evaluación de los sistemas de preguntas y respuestas ancladas (RAG)

En el floreciente campo de la inteligencia artificial, la evaluación de las respuestas generadas por los sistemas de preguntas y respuestas ancladas (RAG) es fundamental. Estos sistemas, que permiten responder a preguntas basándose en documentos de referencia, requieren herramientas de evaluación precisas y fiables para garantizar la calidad de las respuestas proporcionadas. Pero dada la complejidad de estas evaluaciones, ¿se puede confiar en los modelos de lenguaje a gran escala (LLM) para juzgar estas respuestas de forma automática?

 

GroUSE: un conjunto de datos de evaluación innovador

📚 Para responder a esta pregunta, los equipos de ILLUIN Technology han desarrollado GroUSE (Grounded Question Answering Evaluator). GroUSE es un conjunto de datos de metaevaluación diseñado para evaluar la capacidad de los LLM para juzgar la calidad de las respuestas proporcionadas por un sistema RAG. Este punto de referencia se basa en 144 pruebas cuidadosamente diseñadas, cada una de las cuales incluye 🖋️:

    • Una pregunta
    • Una lista de referencias
    • Una respuesta (posiblemente errónea)
    • Calificaciones esperadas según seis criterios: pertinencia, exhaustividad, fidelidad a las referencias, etc.

Este enfoque permite evaluar la capacidad de los LLM para juzgar de manera coherente y precisa las respuestas en diversos escenarios.

 

Los límites de las evaluaciones automatizadas

En los sistemas RAG, es habitual utilizar LLM para evaluar automáticamente las respuestas. Sin embargo, estos evaluadores automáticos suelen ser propensos a cometer errores, como alucinaciones (proporcionar información que no se encuentra en los documentos de origen). Hasta ahora, la evaluación humana seguía siendo la referencia en materia de precisión. Sin embargo, este enfoque no es escalable para evaluaciones regulares y a gran escala.

Aquí es donde entra en juego GroUSE, ofreciendo una solución para comprobar si los LLM pueden realmente sustituir a la experiencia humana en esta función crucial 🤖.

 

Resultados: GPT-4 y Llama-3 a la altura de las expectativas

Los primeros resultados sobre GroUSE son prometedores:

🎖️ GPT-4 destaca con una precisión del 95 %, acercándose así al rendimiento humano, que alcanza el 98 %.
📂 Entre los modelos de código abierto, Llama-3 (70b) se perfila como el mejor, con una puntuación del 79 %.

Estos resultados muestran que los LLM pueden ser herramientas poderosas para evaluar los sistemas RAG, aunque aún queda mucho por hacer para mejorar el rendimiento de los modelos de código abierto. Una de las vías exploradas en el estudio consiste en perfeccionar los modelos entrenándolos en trazas de razonamiento, lo que permite mejorar su rendimiento.

 

¿Por qué GroUSE es una herramienta esencial?

Uno de los principales retos a la hora de evaluar los sistemas de RAG es la precisión de los juicios emitidos por los LLM. GroUSE aporta una nueva perspectiva al poner a prueba estos modelos en escenarios prácticos. A diferencia de los métodos de evaluación clásicos, basados en la correlación con un evaluador sólido, GroUSE ofrece una evaluación más matizada y precisa.

Los resultados también muestran que la correlación con un buen evaluador mide la preferencia relativa entre las respuestas, mientras que la tasa de éxito GroUSE permite calibrar los juicios sobre casos prácticos, garantizando así una evaluación más sólida.

 

Hacia un futuro más fiable para los sistemas RAG

La introducción de GroUSE por parte de ILLUIN Technology supone un gran avance en la mejora de los sistemas RAG y su evaluación. Este punto de referencia, al ofrecer un marco preciso y riguroso, permite medir y mejorar la fiabilidad de los evaluadores automáticos en contextos prácticos. Con resultados prometedores para GPT-4 y Llama-3, GroUSE muestra el camino hacia un futuro en el que los LLM podrían desempeñar un papel clave en la evaluación automatizada de los sistemas de IA.

Los profesionales que trabajan con sistemas GenAI personalizados, ya sea en el marco de ILLUIN Search o ILLUIN Dialogue, encontrarán en GroUSE una herramienta muy valiosa para optimizar la calidad de sus sistemas de preguntas y respuestas.

 

Agradecimientos

👏 ¡Enhorabuena a todos los colaboradores: Sacha Muller,António Loison, Bilel Omrani y Gautier Viaud!

 

Más información sobre GroUSE

Consulte los siguientes enlaces:

📝 El artículo completo: arxiv.org/abs/2409.06595
🗞️ La entrada detallada del blog: huggingface.co/spaces/illuin/grouse
🐙 El código fuente: github.com/illuin-tech/grouse
📚 El conjunto de datos GroUSE: huggingface.co/datasets/illuin/grouse

 

 

 

 

 

Artículos similares

¡Solicite más información sobre ILLUIN Technology y nuestras ofertas!