Dans le domaine en plein essor de l’intelligence artificielle, l’évaluation des réponses générées par les systèmes de Question-Réponse Ancrée (RAG) est cruciale. Ces systèmes, qui permettent de répondre à des questions en se basant sur des documents de référence, nécessitent des outils d’évaluation précis et fiables pour garantir la qualité des réponses fournies. Mais face à la complexité de ces évaluations, peut-on faire confiance aux modèles de Langage à Grande Échelle (LLM) pour juger ces réponses de manière automatique ?
GroUSE : Un jeu de données d’évaluation innovant
📚 C’est pour répondre à cette question que les équipes de ILLUIN Technology ont développé GroUSE (Grounded Question Answering Evaluator). GroUSE est un jeu de données de méta-évaluation conçu pour évaluer la capacité des LLM à juger de la qualité des réponses fournies par un système RAG. Ce benchmark repose sur 144 tests soigneusement conçus, chacun comprenant 🖋️ :
-
- Une question
- Une liste de références
- Une réponse (potentiellement erronée)
- Des notes attendues selon six critères : pertinence, exhaustivité, fidélité aux références, etc.
Cette approche permet d’évaluer la capacité des LLM à juger de manière cohérente et précise des réponses dans des scénarios variés.
Les limites des évaluations automatisées
Dans les systèmes de RAG, il est courant de recourir à des LLM pour évaluer automatiquement les réponses. Cependant, ces évaluateurs automatiques sont souvent sujets à des erreurs, telles que des hallucinations (fournir des informations qui ne sont pas dans les documents sources). Jusqu’à présent, l’évaluation humaine restait la référence en matière de précision. Toutefois, cette approche n’est pas scalable pour des évaluations régulières et à grande échelle.
C’est là qu’intervient GroUSE, en offrant une solution pour tester si les LLM peuvent véritablement se substituer à l’expertise humaine dans ce rôle crucial 🤖
Résultats : GPT-4 et Llama-3 à la hauteur des attentes
Les premiers résultats sur GroUSE sont prometteurs :
🎖️ GPT-4 se distingue avec une précision de 95 %, se rapprochant ainsi de la performance humaine qui atteint 98 %.
📂 Parmi les modèles en open source, Llama-3 (70b) émerge comme le meilleur, avec un score de 79 %.
Ces résultats montrent que les LLM peuvent être des outils puissants pour évaluer les systèmes RAG, bien que des efforts restent à faire pour améliorer la performance des modèles open source. Une des pistes explorées dans l’étude consiste à affiner les modèles en les entraînant sur des traces de raisonnement, permettant ainsi d’améliorer leurs performances.
Pourquoi GroUSE est-il un outil essentiel ?
L’un des principaux défis dans l’évaluation des systèmes de RAG est la précision des jugements rendus par les LLM. GroUSE apporte un éclairage nouveau en testant ces modèles dans des scénarios pratiques. Contrairement aux méthodes classiques d’évaluation, basées sur la corrélation avec un évaluateur fort, GroUSE propose une évaluation plus nuancée et précise.
Les résultats montrent également que la corrélation avec un bon évaluateur mesure la préférence relative entre des réponses, tandis que le taux de réussite GroUSE permet de calibrer les jugements sur des cas pratiques, garantissant ainsi une évaluation plus robuste.
Vers un futur plus fiable pour les systèmes de RAG
L’introduction de GroUSE par ILLUIN Technology constitue une avancée majeure dans l’amélioration des systèmes de RAG et de leur évaluation. Ce benchmark, en offrant un cadre précis et rigoureux, permet de mesurer et d’améliorer la fiabilité des évaluateurs automatiques dans des contextes pratiques. Avec des résultats prometteurs pour GPT-4 et Llama-3, GroUSE montre la voie vers un avenir où les LLM pourraient jouer un rôle clé dans l’évaluation automatisée de systèmes IA.
Les professionnels travaillant sur des systèmes GenAI sur mesure, que ce soit dans le cadre de ILLUIN Search ou ILLUIN Dialogue, trouveront dans GroUSE un outil précieux pour optimiser la qualité de leurs systèmes de question-réponse.
Remerciements
👏 Un très grand bravo à tous les contributeurs Sacha Muller, António Loison, Bilel Omrani et Gautier Viaud !
Pour en savoir plus sur GroUSE
Consultez les liens suivants :
📝 Le papier de recherche complet : arxiv.org/abs/2409.06595
🗞️ Le post de blog détaillé : huggingface.co/spaces/illuin/grouse
🐙 Le code source : github.com/illuin-tech/grouse
📚 Le jeu de données GroUSE : huggingface.co/datasets/illuin/grouse













