[Konfetti]

GroUse: Der Bewertungsmaßstab von RAG

Kontext

Grounded Question Answering (QA) ist in der Regel der letzte Schritt einer RAG-Pipeline: Ausgehend von einer Frage und einer Reihe von Dokumenten, die aus dem Korpus abgerufen wurden, muss ein LLM eine Antwort generieren. Wir erwarten, dass das LLM angibt, aus welchem Dokument die einzelnen Informationen stammen, wie unten dargestellt. Wenn in den Dokumenten keine genaue Antwort zu finden ist, sollte das LLM dies in seiner Antwort angeben. In diesem Fall kann das LLM, wenn in den Dokumenten einige verwandte Informationen verfügbar sind, diese zur Antwort hinzufügen, um zu zeigen, dass der Korpus in Bezug auf die Frage nicht völlig am Thema vorbeigeht.

Diese Aufgabe ist aufgrund der Vielzahl von Fehlern, die eine Antwort enthalten kann, schwer zu bewerten, wie z. B. überflüssige Informationen, fehlende relevante Details aus Referenzen, falsche Behauptungen, dass kein Dokument die Frage beantwortet, Zitierfehler und so weiter. Es wurden einige Versuche unternommen, Metriken zu definieren und die Bewertung dieser Aufgabe zu automatisieren (RAGAS, DeepEval), jedoch deckten diese Ansätze nicht alle Fehlermodi ab, die für uns von Interesse waren. Die meisten dieser Ansätze stützen sich stark auf die LLM-als-Richter Methode. Diese Technik kann zwar sehr leistungsfähig sein, jedoch ist es entscheidend, zunächst die Fähigkeit eines LLM zu bewerten, diese Grounded QA-Aufgabe in Bezug auf unsere Metriken genau zu bewerten. Es ist verlockend, einen LLM zur Überprüfung der von einem Evaluator-LLM (der die Antworten des LLM bewertete) generierten Bewertungen in Betracht zu ziehen. Dies könnte jedoch schnell zu einer endlosen Reihe von KI-auf-KI-Bewertungen führen. Aus diesem Grund haben wir GroUSE: Eine Unit-Test-Suite zur Bewertung der Bewerter (ausgesprochen „graouse“).

Der GroUSE-Datensatz

GroUSE (Grounded QA Unitary Scoring of Evaluators) ist ein Datensatz mit einheitlichen Tests, mit denen überprüft wird, ob ein Grounded QA-Evaluator die erwarteten Bewertungen vergibt. Jeder Test enthält:

- eine fundierte QA-Stichprobe (bestehend aus einer Frage und Referenzen),
- eine fundierte Antwort auf die Frage,
- eine Antwort zur Auswertung (die einen Fehler enthalten kann oder auch nicht),
- eine Liste der erwarteten Noten.

In unserem Rahmen bewerten Richter-LLMs die Qualität einer fundierten QA-Antwort anhand von 6 Metriken, die alle Fehlermodi der Aufgabe erfassen sollen:

Die Antwortrelevanzbewertet die Relevanz der in der Antwort gegebenen Informationen in Bezug auf die Frage anhand einer Likert-Skala (1 bis 5).
Die Vollständigkeitwird ebenfalls anhand einer Likert-Skala bewertet, um festzustellen, ob alle relevanten Informationen aus den Dokumenten in der Antwort enthalten sind.
Die Genauigkeitist eine binäre Bewertung, die überprüft, ob alle Fakten in der Antwort korrekt sind und dem entsprechenden Dokument richtig zugeordnet wurden.
Die Nützlichkeitwird nur bewertet, wenn die Antwort angibt, dass es in den Referenzen keine genaue Antwort gibt, und wenn sie verwandte Informationen enthält. Es handelt sich um eine binäre Bewertung, die bestimmt, ob die zusätzlichen Informationen tatsächlich nützlich und für die Frage relevant sind.
Positive Akzeptanzundnegative Ablehnungsind binäre Werte, die jeweils ein echtes Positiv und ein echtes Negativ bei der Identifizierung der Beantwortbarkeit der Frage anzeigen.

Der GroUSE-Datensatz umfasst144 Beispiele, die in 9 Sets organisiert sind. Jedes Set befasst sich mit derselben Frage und stützt sich auf weitgehend ähnliche Referenzen, wobei die Antworten geringfügig variieren. Diese kleinen Änderungen sind auf eine vordefinierte Typologie von 16 Testtypen zugeschnitten, mit denen bewertet werden soll, ob ein Bewerter alle Fehlermodi korrekt bestraft und korrekte Antworten in einer Vielzahl von Szenarien belohnt. Das Bild unten zeigt vier Beispiele zusammen mit den entsprechenden Testtypen. Beispielsweise bewertet Testtyp 14, ob die Treuebewertung auf 0 gesetzt wird, wenn ein Zitierfehler vorliegt.

GroUSE enthält einen zusätzlichen Satz von Tests, die den Benutzern helfen sollen, ihre Eingabeaufforderungen zu gestalten und den bestmöglichen Evaluator zu erhalten, bevor sie dessen Leistung auf den 9 anderen Sätzen überprüfen. Mit diesem „Trainingssatz” haben wir die Eingabeaufforderungen wiederholt und uns bemüht, die bestmöglichen Eingabeaufforderungen für jedes der getesteten Modelle zu erstellen, bevor wir gemessen haben, wie viele Tests sie bestanden haben. Der „Trainingssatz“ ist klein gehalten, um das reale Szenario nachzuahmen, in dem der Benutzer nur über eine begrenzte Anzahl von Beispielen verfügt, um seine Eingabeaufforderungen zu optimieren.

Benchmarking der Bewertungsfähigkeiten von Modellen

Die Struktur des GroUSE-Datensatzes ermöglicht es, die Ergebnisse eines Modells in einem Matrixformat darzustellen, wobei jede Zeile die Leistung des Modells bei einem bestimmten Testtyp darstellt und jede Spalte seiner Leistung bei einer bestimmten Frage entspricht. Dieses Format zeigt beispielsweise, dass GPT-4 Schwierigkeiten mit Testtyp 16 hat, bei dem eine Antwort Informationen enthält, die eine der Referenzen verzerren, was zu einer geringen erwarteten Genauigkeit, aber guter Relevanz und guter Vollständigkeit führt. Darüber hinaus hat Llama-3 70B die größten Schwierigkeiten mit Testtyp 7, einem Test, bei dem wir eine *absurde* Tatsache in die Referenzen aufnehmen und diese Tatsache in der Antwort erwähnen. Obwohl die Tatsache falsch erscheint, da sie in den Referenzen enthalten ist, werden hohe Punktzahlen erwartet. Mit Testtyp 7 kann überprüft werden, ob das Modell sein internes Wissen nicht nutzt und sich ausschließlich auf die Referenzen bezieht, um die Metriken zu bewerten.

Für eine kompaktere Darstellung können wir auch den Prozentsatz der Tests berechnen, die jedes Modell für jede Metrik besteht:

Die stärksten Bewertungsmodelle sind GPT-4 für Modelle mit geschlossenen Gewichten mit einer Erfolgsquote von 95 % und Llama-3 70b für Modelle mit offenen Gewichten mit 79 %. Die menschliche Leistung bei diesem Datensatz liegt bei 98 %. Die am schwierigsten zu bewertende Kennzahl ist die Vollständigkeit, sowohl für LLMs als auch für Menschen.

Verbesserung eines Open-Source-Modells

Um zu zeigen, dass die Lücke zwischen Modellen mit offenen und geschlossenen Gewichten verringert werden kann, haben wir ein Llama-3 8b-Modell anhand von Bewertungsspuren von GPT-4 feinabgestimmt. Mit dem Ziel, ein Modell zu entwickeln, das die Aufgabe in einem einzigen Aufruf lösen kann, haben wir die metrikspezifischen Antworten von GPT-4 zu einer einzigen Ausgabe verkettet und einen ähnlichen Prozess für die Eingabe durchgeführt, was zu einem Datensatz von 1200 Stichproben führte. Wir haben das Llama-3 8b anhand von 1000 Stichproben dieses Datensatzes feinabgestimmt und den Rest als Testsatz verwendet. Wir haben den Fortschritt des Modells sowohl anhand von GroUSE als auch durch Messung der Korrelation zwischen den Bewertungen von GPT-4 und den Bewertungen des feinabgestimmten Modells im Testsatz gemessen.

Das Finetuning verbessert die Bewertungsfähigkeiten von Llama-3 erheblich, was sich in einer deutlichen Verbesserung der Bestehensquoten von 40 % auf 83 % zeigt. Ein ähnlicher Fortschritt ist bei den Korrelationsmaßen zu beobachten, wobei jedoch anzumerken ist, dass das feinabgestimmte Modell ähnliche Korrelationsniveaus wie das 0-Shot-Llama-3 8b aufweist, wobei eine Metrik pro Prompt bewertet wird. Obwohl dieser Ansatz erhebliche Verbesserungen gezeigt hat, wäre es sinnvoll, die Auswirkungen der Feinabstimmung größerer Modelle zu untersuchen, die möglicherweise eine noch bessere Leistung erzielen könnten.

Verbesserung eines Open-Source-Modells

Unsere Ergebnisse zeigen eine Diskrepanz zwischen den GroUSE-Erfolgsquoten und der Korrelation mit den Bewertungen von GPT-4. Während Prometheus 2 7b und das feinabgestimmte Llama-3 8b ähnliche Korrelationen mit GPT-4 hinsichtlich der Relevanz der Antworten aufweisen, unterscheiden sich ihre GroUSE-Erfolgsquoten erheblich, wobei Llama-3 8b Prometheus 2 7b übertrifft. Verwechslungsmatrizen zeigen, dass Prometheus 2 insgesamt eine bessere Übereinstimmung mit GPT-4 aufweist, jedoch mit Extremfällen (1, 5 und NaN-Fälle) zu kämpfen hat, während das fein abgestimmte Llama-3 in Extremfällen hervorragende Ergebnisse erzielt, jedoch in Zwischenfällen keine Korrelation aufweist.

Diese Erkenntnis legt nahe, dass eine hohe Korrelation mit den Bewertungen von GPT-4 nicht unbedingt mit einer hohen Erfolgsquote bei Unit-Tests gleichzusetzen ist. Ein Bewertungsmodell kann dieselben relativen Präferenzen wie GPT-4 aufweisen (was durch eine starke Rangkorrelation angezeigt wird), aber dennoch nicht dieselbe Kalibrierung bei präzisen Referenzfällen (sehr gute Antworten, subtile Fehler usw.) aufweisen, was zu einer schlechten Leistung bei Bewertungs-Unit-Tests führt.

Fazit

Zusammenfassend lässt sich sagen:

GroUSE ist ein Datensatz, mit dem überprüft werden kann, ob ein Modell in einer Vielzahl von Fällen die erwartete Punktzahl zuweist.
Unter Verwendung des LLM-as-a-Judge-Ansatzes war GPT-4 der stärkste Evaluator für geschlossene Gewichte und Llama-3 70B der beste Evaluator für offene Gewichte.
Wir haben gezeigt, dass sich die Bewertungsfähigkeiten eines Modells durch Feinabstimmung anhand der Bewertungen eines stärkeren Modells verbessern lassen.
Wir haben gezeigt, dass eine Korrelation mit einem starken Bewerter nicht unbedingt eine gute Punktzahl bei den Unit-Tests bedeutet. Diese Messungen ergänzen sich: Die Korrelation mit GPT-4 zeigt Übereinstimmung in der relativen Präferenz, während die GroUSE-Erfolgsquote die genaue Kalibrierung anhand praktischer Referenzfälle misst.

Wenn Sie Ihre RAG-Pipeline mit unseren GPT-4-Prompts bewerten oder sogar Ihren RAG-Evaluator auf GroUSE meta-evaluieren möchten, steht Ihnen untergithub.com/illuin-tech/grouseein Python-Paket zur Verfügung!

BibTeX

@misc{muller2024grouse,
          title={GroUSE: A Benchmark to Evaluate Evaluators in Grounded Question Answering}, 
          author={Sacha Muller and António Loison and Bilel Omrani and Gautier Viaud},
          year={2024},
          eprint={2409.06595},
          archivePrefix={arXiv},
          primaryClass={cs.CL},
          url={https://arxiv.org/abs/2409.06595},
}

Sacha Muller,António Loison,Bilel Omrani,Gautier Viaud– ILLUIN Technology

Möchten Sie mehr erfahren?

📝 Artikel
🗃️ arXiv
🐙 Code
📚 Datensatz
🤖 Modell

Ähnliche Artikel

ColPali: Effiziente Dokumentensuche mit Vision-Sprachmodellen 👀

F&E-Veröffentlichungen

ColPali, eine innovative Methode der Dokumentenrecherche, die Vision-Language-Modelle in einem RAG-Rahmen (Retrieval-Augmented Generation) verwendet …

🥐 CroissantLLM: Ein wirklich zweisprachiges französisch-englisches Sprachmodell

F&E-Veröffentlichungen

Entdecken Sie CroissantLLM, das kompakte Sprachmodell mit 1,3 Milliarden Parametern, zweisprachig Französisch-Englisch, das eine außergewöhnliche Leistung bietet. Vollständig …

Erfahren Sie mehr über ILLUIN Technology und unsere Angebote!

Kontaktieren Sie uns