Im boomenden Bereich der künstlichen Intelligenz ist die Bewertung der von Frage-Antwort-Systemen (RAG) generierten Antworten von entscheidender Bedeutung. Diese Systeme, die es ermöglichen, Fragen auf der Grundlage von Referenzdokumenten zu beantworten, erfordern präzise und zuverlässige Bewertungsinstrumente, um die Qualität der gegebenen Antworten zu gewährleisten. Aber kann man angesichts der Komplexität dieser Bewertungen den Large Language Models (LLM) vertrauen, um diese Antworten automatisch zu beurteilen?
GroUSE: Ein innovativer Bewertungsdatensatz
📚 Um diese Frage zu beantworten, haben die Teams von ILLUIN Technology GroUSE (Grounded Question Answering Evaluator) entwickelt. GroUSE ist ein Metabewertungsdatensatz, der entwickelt wurde, um die Fähigkeit von LLMs zu bewerten, die Qualität der von einem RAG-System gelieferten Antworten zu beurteilen. Dieser Benchmark basiert auf 144 sorgfältig konzipierten Tests, die jeweils Folgendes umfassen 🖋️:
-
- Eine Frage
- Eine Referenzliste
- Eine (möglicherweise falsche) Antwort
- Bewertung nach sechs Kriterien: Relevanz, Vollständigkeit, Übereinstimmung mit den Referenzen usw.
Dieser Ansatz ermöglicht es, die Fähigkeit von LLM zu bewerten, Antworten in verschiedenen Szenarien konsistent und präzise zu beurteilen.
Die Grenzen automatisierter Bewertungen
In RAG-Systemen ist es üblich, LLM zur automatischen Bewertung von Antworten zu verwenden. Diese automatischen Bewertungsprogramme sind jedoch häufig fehleranfällig, beispielsweise durch Halluzinationen (Angaben, die nicht in den Quelldokumenten enthalten sind). Bislang galt die menschliche Bewertung als Maßstab für Genauigkeit. Dieser Ansatz ist jedoch für regelmäßige und groß angelegte Bewertungen nicht skalierbar.
Hier kommt GroUSE ins Spiel und bietet eine Lösung, um zu testen, ob LLMs tatsächlich menschliches Fachwissen in dieser wichtigen Rolle ersetzen können 🤖.
Ergebnisse: GPT-4 und Llama-3 erfüllen die Erwartungen
Die ersten Ergebnisse zu GroUSE sind vielversprechend:
🎖️ GPT-4 zeichnet sich durch eine Genauigkeit von 95 % aus und nähert sich damit der menschlichen Leistungsfähigkeit von 98 %.
📂 Unter den Open-Source-Modellen ist Llama-3 (70b) mit einer Punktzahl von 79 % das beste Modell .
Diese Ergebnisse zeigen, dass LLM leistungsstarke Werkzeuge zur Bewertung von RAG-Systemen sein können, auch wenn noch Anstrengungen unternommen werden müssen, um die Leistung der Open-Source-Modelle zu verbessern. Einer der in der Studie untersuchten Ansätze besteht darin, die Modelle durch Training anhand von Argumentationsketten zu verfeinern und so ihre Leistung zu verbessern.
Warum ist GroUSE ein unverzichtbares Werkzeug?
Eine der größten Herausforderungen bei der Bewertung von RAG-Systemen ist die Genauigkeit der von LLM abgegebenen Urteile. GroUSE liefert neue Erkenntnisse, indem es diese Modelle in praktischen Szenarien testet. Im Gegensatz zu herkömmlichen Bewertungsmethoden, die auf der Korrelation mit einem starken Bewerter basieren, bietet GroUSE eine differenziertere und genauere Bewertung.
Die Ergebnisse zeigen auch, dass die Korrelation mit einem guten Bewerter die relative Präferenz zwischen Antworten misst, während die GroUSE-Erfolgsquote es ermöglicht, Urteile über praktische Fälle zu kalibrieren und so eine robustere Bewertung zu gewährleisten.
Auf dem Weg zu einer zuverlässigeren Zukunft für RAG-Systeme
Die Einführung von GroUSE durch ILLUIN Technology ist ein wichtiger Fortschritt bei der Verbesserung von RAG-Systemen und ihrer Bewertung. Dieser Benchmark bietet einen präzisen und strengen Rahmen, um die Zuverlässigkeit automatischer Bewertungsmethoden in praktischen Kontexten zu messen und zu verbessern. Mit vielversprechenden Ergebnissen für GPT-4 und Llama-3 weist GroUSE den Weg in eine Zukunft, in der LLMs eine Schlüsselrolle bei der automatisierten Bewertung von KI-Systemen spielen könnten.
Fachleute, die an maßgeschneiderten GenAI-Systemen arbeiten, sei es im Rahmen von ILLUIN Search oder ILLUIN Dialogue, finden in GroUSE ein wertvolles Werkzeug zur Optimierung der Qualität ihrer Frage-Antwort-Systeme.
Danksagung
👏 Ein großes Lob an alle Mitwirkenden: Sacha Muller,António Loison, Bilel Omrani und Gautier Viaud!
Mehr erfahren zu GroUSE
Siehe folgende Links:
📝 Die vollständige Forschungsarbeit: arxiv.org/abs/2409.06595
🗞️ Der ausführliche Blogbeitrag: huggingface.co/spaces/illuin/grouse
🐙 Der Quellcode: github.com/illuin-tech/grouse
📚 Der Datensatz GroUSE: huggingface.co/datasets/illuin/grouse













