[Konfetti]

ViDoRe Benchmark V3: Eine umfassende Bewertung von RAG in realen Anwendungsfällen

ViDoRe V3: Eine umfassende Bewertung der Suche für Anwendungsfälle in Unternehmen

TL;DR

ILLUIN Technology ist stolz darauf, die ViDoRe V3 Benchmark vorzustellen, der mit Unterstützung von NVIDIA entwickelt wurde. ViDoRe V3 ist unser neuester Benchmark, der einen neuen Goldstandard für die Bewertung multimodaler Dokumentenabrufsysteme in Unternehmen setzen soll. Er befasst sich mit einer entscheidenden Herausforderung in Produktions-RAG-Systemen: dem Abruf genauer Informationen aus komplexen, visuell reichhaltigen Dokumenten.

ViDoRe V3 verbessert bestehende RAG-Benchmarks, indem es Unternehmensrelevanz und strenge Datenqualität in den Vordergrund stellt. Anstatt sich auf saubere akademische Texte zu stützen, basiert der Benchmark auf 10 anspruchsvollen, realen Datensätzen aus verschiedenen Industriebereichen, von denen 8 öffentlich zugänglich sind und 2 privat bleiben. Während frühere Benchmarks häufig auf synthetisch generierten Daten basieren, zeichnet sich ViDoRe V3 durch von Menschen erstellte und verifizierte Annotationen aus.

Dieser Benchmark umfasst 26.000 Seiten und 3.099 Abfragen, die in 6 Sprachen übersetzt wurden. Jede Abfrage ist mit von menschlichen Annotatoren erstellten und verifizierten Referenzdaten verknüpft: relevante Seiten, präzise Begrenzungsrahmen-Annotationen für Schlüsselelemente und eine umfassende Referenzantwort.

Abfragebeispiel

Warum wir ViDoRe V3 entwickelt haben

Die Landschaft der Dokumentenabfrage wird immer vielfältiger. Neue Pipelines, die auf visuellen Sprachmodellen basieren, stellen eine Herausforderung für herkömmliche Systeme dar, die auf Textabfrage-/Generierungsmodellen basieren. Mit ViDoRe V1 und V2 haben wir erste Schritte zur besseren Bewertung von VLM-Retrievern unternommen:

ViDoRe V1 konzentrierte sich auf extraktive Abfragen auf der Grundlage einzelner Seiten,
ViDoRe V2 erweiterte den Benchmark auf offenere Abfragen.

Die Korpora waren jedoch im Vergleich zu realen Anwendungsfällen immer noch klein und stützten sich beide stark auf synthetische Generierung. Obwohl dies Schritte in die richtige Richtung waren, lieferten uns die bisherigen Benchmarks immer noch ein fragmentiertes Bild. Die Korpora mussten größer und repräsentativer für Unternehmensdaten sein, die Abfragen mussten vielfältiger sein, eine End-to-End-Bewertung war schwierig und es fehlte die menschliche Überprüfung.

Auf dem Weg zu einer klareren Diagnose: Umgang mit grundlegenden Einschränkungen bei der Informationsgewinnung

Um die Einschränkungen früherer Benchmarks zu beheben, haben wir uns auf drei Hauptverbesserungsbereiche konzentriert:

Unternehmensrelevante Korpora: Wir haben 10 verschiedene Korpora zusammengestellt, die sich jeweils auf einen bestimmten, unternehmensrelevanten Bereich oder eine bestimmte Aufgabe konzentrieren. Für jeden Bereich haben wir mehr als 1.000 Seiten aus verschiedenen, frei lizenzierten multimodalen Dokumenten zusammengestellt, die die realen Herausforderungen und die Komplexität der Informationssuche in Unternehmen widerspiegeln. 8 Datensätze sind öffentlich zugänglich, 2 sind privat, um eine Überanpassung zu verhindern.
Menschliche Überprüfung der Annotationen: Für jede Abfrage stellen wir von Menschen annotierte Seitenrelevanz-Rankings, Begrenzungsrahmen und schriftliche Antworten bereit, um eine umfassende Abfrage-/RAG-Bewertung zu ermöglichen.
Verschiedene Abfragen: Um Fehlermodi systematisch zu identifizieren, umfassen die Abfragen 7 Typen (z. B. Multi-Hop, numerisch) und 3 Formate (Frage, Anweisung, Schlüsselwort). Um die sprachübergreifenden Fähigkeiten zu bewerten, werden alle Abfragen in 6 Sprachen bereitgestellt: Englisch, Französisch, Spanisch, Deutsch, Italienisch und Portugiesisch.

Öffentliche Datensätze

öffentliche Datensätze

Private Datensätze

Zwei Datensätze bleiben privat und werden vom MTEB-Team (vielen Dank an sie!) verwaltet, um die Integrität des Benchmarks zu gewährleisten und Überanpassungen zu vermeiden. Dieser Bewertungsansatz sollte eine weniger verzerrte Methode zur Bewertung visueller Retriever-Modelle bieten und zu einem repräsentativeren Verständnis ihrer tatsächlichen Fähigkeiten führen. Um nicht zu viele Details über diese Datensätze preiszugeben, geben wir nur den Bereich und die Sprache der Dokumente bekannt.

Die beiden privaten Datensätze umfassen:

Energiebezogene Regulierungsdokumente (Englisch)
Telekommunikationsbezogene technische Normdokumente (Englisch)

Abfragekategorien

Datensätze nach Abfragetypen

Wir haben die ViDoRe V3-Abfragen so gestaltet, dass sie die Vielfalt und Komplexität realer Suchaufgaben widerspiegeln. Jede Abfrage ist als Frage, Anweisung oder Stichwort formatiert und mit einem oder mehreren von 7 Abfragetypen gekennzeichnet.

Datensätze nach Abfragetypen

Um zu veranschaulichen, welche Kombinationen von Abfragetypen tendenziell zusammen auftreten und wie häufig jede einzelne davon vorkommt, visualisieren wir die Verteilung und Kardinalität aller Kombinationen. Abfragen einer einzigen Kategorie sind am häufigsten, aber viele Abfragen kombinieren mehrere Typen, wie beispielsweise extraktive Fragen, die numerische Vergleiche erfordern.

upset_plot_query_types_complete

Wir haben besonders darauf geachtet, dass die Suchanfragen für aktuelle Abrufsysteme in allen Bereichen eine Herausforderung darstellen. Die meisten Suchanfragen erfordern Informationen, die über mehrere Seiten verteilt sind, sodass die Modelle gezwungen sind, Inhalte aus den gesamten Dokumenten zu extrahieren und zusammenzufassen, anstatt sich auf Übereinstimmungen auf einer einzigen Seite zu verlassen.

ridge_plot_annotated_pages_per_query

Ein hybrider Generierungsprozess: Wie man einen anspruchsvollen Benchmark aufbaut

Abfrageerstellung

Um einen robusten, anspruchsvollen und hochwertigen Benchmark zu erstellen, haben wir einen ausgeklügelten hybriden Prozess entwickelt, der menschliches Fachwissen mit LLM-gesteuerter Skalierung in Einklang bringt. Unser Ziel war es, realistische Abfragen zu erstellen, daher begannen wir mit einem seitenunabhängigen Ansatz. Ähnlich wie bei ViDoRe V2 wurden die Abfragen nicht anhand einer einzelnen Seite generiert, sondern anhand von hochrangigen Zusammenfassungen von Dokumentabschnitten. Dadurch wird verhindert, dass die Aufgaben zu einfach sind, und es wird sichergestellt, dass sie die tatsächlichen Absichten der Benutzer widerspiegeln. Diese Generierung wurde sowohl durch synthetische Pipelines (einschließlich NVIDIA NeMo Data Designer mit Qwen3-235B) für die Skalierung als auch durch erfahrene menschliche Annotatoren für Nuancen und Komplexität erreicht.

Angesichts Tausender generierter Abfragen für Tausende von Korpusseiten erforderte die Suche nach den richtigen Ground-Truth-Antworten einen enormen Annotationsaufwand. Wir haben einen mehrstufigen Trichter implementiert, um diesen Prozess zu skalieren. Zunächst führte ein VLM (Qwen2.5-32B) einen losen Filter mit hoher Rückrufquote durch, um eindeutig irrelevante Seiten schnell auszusortieren, wodurch Fehlalarme begrenzt und die Arbeit der Annotatoren fokussiert wurden. Nach dieser Vorfilterung übernahmen geschulte menschliche Annotatoren die entscheidende Arbeit. Sie identifizierten die wirklich relevanten Seiten und erstellten die endgültigen, detaillierten Annotationen, einschließlich Relevanzrankings auf Seitenebene, präzisen schriftlichen Antworten und Ground-Truth-Begrenzungsrahmen.

Obwohl eine perfekte Grundwahrheit für Datensätze dieser Größenordnung ein schwer zu erreichendes Ziel ist, haben wir viel in die Durchsetzung eines mehrschichtigen Qualitätskontrollrahmens investiert. Unsere Annotatoren verfügten über muttersprachliche Sprachkenntnisse und haben alle die Validierung vor der Produktion und die Pilot-Tests bestanden. Wichtige Aufgaben wurden von mehreren Annotatoren ausgeführt, um einen Konsens zu gewährleisten, und die Daten wurden sowohl einer Qualitätskontrolle als auch einer Prüfung durch erfahrene leitende Annotatoren unterzogen. Dieser mehrschichtige Ansatz wurde entwickelt, um die Grundwahrheit und die Benchmark-Aufgaben so zuverlässig und realistisch wie möglich zu gestalten.

Als letzten Schritt zur Qualitätssicherung haben wir die Anmerkungen rigoros gefiltert. Dazu haben wir den Konsens der Anmerker überprüft, eine manuelle Überprüfung durchgeführt und Qwen2.5-VL-32B verwendet, um das Vorhandensein relevanter Informationen auf den kommentierten Seiten zu bestätigen. Anschließend haben wir Qwen2.5-VL-32B ein letztes Mal eingesetzt, um die verbleibenden Ergebnisse zu einer einzigen goldenen Antwort zusammenzufassen.

Ein harter Maßstab für aktuelle Retriever-Modelle

VN_Vergleich_V1V2_V3

Wir bewerten eine Vielzahl moderner visueller Suchmodelle anhand unseres Benchmarks unter Verwendung des MTEB-Frameworks. Die Ergebnisse bestätigen, dass der Benchmark für aktuelle Methoden eine außergewöhnliche Herausforderung darstellt.

Die leistungsstärksten Modelle erreichen einen Wert von 65 % NDCG@10 bei englischen Datensätzen. Bei der Einführung mehrsprachiger Dokumente und übersetzter Suchanfragen verschlechtert sich die Leistung erheblich, wobei der Durchschnittswert 60 % NDCG@10 nicht erreicht.

Eine genauere Analyse der Ergebnisse zeigt mehrere wichtige Muster:

Herausforderungen bei technischen Dokumenten: Modelle haben erhebliche Schwierigkeiten mit den hochtechnischen Dokumenten in unserer industriellen Untergruppe und unserem privaten Energy-EN-Set, insbesondere bei der Interpretation dichter Schaltpläne und komplexer Grafiken.
Anhaltende mehrsprachige Herausforderungen: Die Leistung sinkt erheblich bei unseren französischen Dokumenten. Bei den Aufteilungen Physik und Finanzen-FR konnte kein Modell 50 % NDCG@10 erreichen.
Relative Stärke in der Informatik: Modelle zeigen eine höhere Leistung beim Split „Informatik “. Wir vermuten, dass dies ein Spillover-Effekt der riesigen Menge an Codierungsdaten ist, die zum Trainieren moderner VLMs verwendet werden, wodurch diese über mehr Wissen in diesem Bereich verfügen.

Die vollständigen, detaillierten Bewertungsergebnisse und eine tiefergehende Analyse der Komplexität des Datensatzes sind unten verfügbar. Sofern nicht anders angegeben, handelt es sich bei allen angegebenen Metriken um NDCG@10.

Ergebnisse der englischen Bewertung

Mehrsprachige Ergebnisse

Mehrsprachige Bewertungsergebnisse

Analyse der Schwierigkeit von Abfragetypen

Wir schlüsseln die Punktverteilung nach Abfragetyp und Aufgabe für nemo-retriever-colembed-3b auf. Die Modellleistung entspricht gut dem erwarteten Schwierigkeitsgrad der einzelnen Abfragetypen: Offene (NDCG@10 \= 0,438) und Multi-Hop-Abfragen (0,515) sind am schwierigsten abzurufen, während extraktive (0,668) und boolesche (0,657) Abfragen am einfachsten sind.

Analyse der Schwierigkeit von Abfragetypen

Überlegungen

Abdeckung von Unternehmensdokumenten: Eine zentrale Herausforderung bei der Entwicklung dieses Benchmarks war die begrenzte Verfügbarkeit von multimodalen Dokumenten aus diesem Bereich. Obwohl erhebliche Anstrengungen unternommen wurden, um relevante Dokumente zusammenzustellen, repräsentieren die Korpora möglicherweise nicht in allen Kontexten vollständig proprietäre Unternehmensdaten.

Sprachabdeckung: Der Benchmark beschränkt sich derzeit auf französische und englische Dokumente. Wir haben zwar versucht, relevante Dokumente in weiteren Sprachen zu kuratieren, doch aufgrund begrenzter Ressourcen war eine umfassendere Sprachabdeckung nicht möglich. Um diese Einschränkung auszugleichen, wurden die Suchanfragen in mehrere Sprachen übersetzt, um die Bewertung sprachübergreifender Aufgaben zu ermöglichen.

Annotationsqualität: Bei diesem Umfang und dieser Komplexität/diesem Umfang der Aufgabe ist es schwierig, eine perfekte Annotationsqualität zu erreichen. Wir haben ein mehrschichtiges Qualitätskontroll-Framework implementiert, das sowohl fortschrittliche LLMs/VLMs als auch erfahrene menschliche Annotatoren in der gesamten Pipeline einbezieht, um die Qualität zu validieren und Fehler vom Typ 1/2 zu minimieren. Trotz dieses strengen Validierungsprozesses können einige Annotationsfehler im Benchmark verbleiben.

Verwendung:

Bewertung

Hier ist ein kurzes Skript zur Bewertung von colqwen2.5-v0.2 im neuen Benchmark unter Verwendung von MTEB (derzeit noch nicht in den Hauptzweig integriert):

import mteb

benchmark = mteb.get_benchmark("ViDoRe(v3)")
model = "vidore/colqwen2.5-v0.2"

results = mteb.evaluate(model=model, tasks=benchmark)

Beispielvisualisierung

Hier ist ein einfaches Skript zur Visualisierung eines Frage-Antwort-Paares mit Begrenzungsrahmen, die auf den entsprechenden Seiten eingezeichnet sind.

from datasets import load_dataset

dataset_name = "vidore/military_technical_reports"

dataset = {
    "queries": load_dataset(dataset_name, data_dir="queries", split="test"),
    "qrels": load_dataset(dataset_name, data_dir="qrels", split="test"),
    "corpus": load_dataset(dataset_name, data_dir="corpus", split="test")
}

query_sample = dataset["queries"][8]
print('Query:', query_sample['query'])
print("Answer:", query_sample['answer'])

> Query: What type of airflow is required to maintain ultra-clean environments in aerospace operations?
> Answer: Laminar airflow is required to maintain ultra-clean environments in aerospace operations.

related_qrels = dataset["qrels"].filter(lambda x: x['query_id'] == query_sample['query_id'])

import matplotlib.pyplot as plt
import matplotlib.patches as patches

def plot_bbox(image, bboxes):
    _, ax = plt.subplots(figsize=(18, 12))
    ax.imshow(image), ax.axis('off')
    for bbox in bboxes:
        rect = patches.Rectangle((bbox['x1'], bbox['y1']), bbox['x2'] - bbox['x1'], bbox['y2'] - bbox['y1'], linewidth=2, edgecolor='r', facecolor='none')
        ax.add_patch(rect)
    plt.show()

for qrel in related_qrels:
    plot_bbox(dataset["corpus"][qrel['corpus_id']]['image'], qrel['bounding_boxes'])

Ausgabe-Beispiele

Danksagungen

Unser aufrichtiger Dank gilt Idris dafür, dass er uns die Möglichkeit gegeben hat, unsere Berechnungen auf dem Jeanzay-Cluster durchzuführen (Fördernummer AD011016393). Ohne das Engagement aller Beteiligten wäre dieses Projekt nicht realisierbar gewesen – wir sind all unseren Kommentatoren und Kollegen zu großem Dank verpflichtet.

Vielen Dank auch an das MTEB-Team für die Zusammenarbeit mit den privaten Datensätzen.

Abschließend möchten wir uns bei allen Mitarbeitern von NVIDIA bedanken, die an der Konzeption und Entwicklung dieses Benchmarks mitgewirkt haben: Tom Balough, Gabriel Moreira, Bo Liu, Eric Tramel, Mengyao Xu, Radek Osmulski, Erin Potter und Hannah Brandon für ihre unschätzbare Hilfe und Beratung.