18. März 2025 • Verfasst von Manuel Faysse, Quentin Macé und Antonio Loison
Warum ein neuer Benchmark?
Seit der Veröffentlichung des ursprünglichen ViDoRe-Benchmarks haben sich visuelle Abrufmodelle erheblich weiterentwickelt! Während das ursprüngliche ColPali-Modell eine durchschnittliche Punktzahl von 81,3 nDCG@5 erzielte, übertreffen die aktuellen SOTA-Modelle auf der Rangliste einen nDCG@5 von 90, wobei einige Aufgaben „zu einfach” werden, um ein aussagekräftiges Signal zu liefern!
Da sich der Benchmark für SOTA-Modelle der Sättigung nähert, gibt es nur begrenzten Spielraum, um Verbesserungen wirklich zu messen und die Fähigkeiten der Modelle in realistischen Szenarien zu verstehen. Um die Grenzen der visuellen Suche weiter zu verschieben, wurde es unerlässlich, einen neuen Benchmark einzuführen, der speziell darauf ausgelegt ist, diese fortschrittlichen Modelle herauszufordern: ViDoRe (Visual Document Retrieval) Benchmark V2.
Motivation für die Erstellung von ViDoRe Benchmark V2
Bei der Entwicklung von ViDoRe Benchmark V2 war es unser Hauptziel, einen Benchmark zu schaffen, der die Herausforderungen der realen Welt widerspiegelt – schwierig, vielfältig und aussagekräftig. Aktuelle Benchmarks weisen Einschränkungen auf, die sie daran hindern, das tatsächliche Nutzerverhalten und komplexe Suchszenarien genau widerzuspiegeln. Wir haben drei kritische Probleme in bestehenden Benchmarks identifiziert:
- Extractive Nature of Queries:
Aktuelle Benchmarks basieren in der Regel auf extraktiven Abfragen, die unrealistische Suchkontexte liefern, da echte Nutzer selten Abfragen aus exakten Phrasen in Dokumenten formulieren. - Single-Page Query Bias:
Viele Benchmarks legen übermäßigen Wert auf die Abfrage aus einseitigen Kontexten und vernachlässigen dabei komplexe, mehrere Dokumente umfassende oder dokumentübergreifende Abfragen, wie sie in realen Anwendungen üblich sind. - Herausforderungen bei der synthetischen Abfragegenerierung:
Rein synthetische Benchmarks sind zwar theoretisch attraktiv, lassen sich jedoch ohne umfangreiche manuelle Überwachung nur schwer effektiv umsetzen. Sie produzieren oft Ausreißer, irrelevante oder triviale Abfragen, sodass eine manuelle Filterung unerlässlich, aber kostspielig ist.
Entscheidungen zum Design und verwendete Techniken
Um diesen Herausforderungen zu begegnen und einen robusten, realistischen Benchmark zu schaffen, umfasst ViDoRe Benchmark V2 mehrere innovative Funktionen:
-
-
- Blind Contextual Querying:
In der Praxis kennen Benutzer häufig nicht den Inhalt des Korpus, das sie abfragen. Um die weit verbreitete Verzerrung durch Extraktion in den meisten synthetischen Abfrage-Dokument-Datensätzen zu reduzieren (Datensätze werden oft mit Kenntnis des Dokumentinhalts erstellt), haben wir den Abfrage-Annotator-Modellen nur begrenzte Informationen über das Dokument (Zusammenfassungen, Metadaten usw.) zur Verfügung gestellt und die vielen irrelevanten Abfragen herausgefiltert, die sich daraus ergaben, um die realen Benutzerinteraktionen mit dem Korpus besser nachzubilden. - Lange und dokumentübergreifende Abfragen:
Im Gegensatz zu herkömmlichen Benchmarks legt ViDoRe Benchmark V2 den Schwerpunkt auf lange und dokumentübergreifende Abfragen, die reale Suchsituationen genau widerspiegeln. Mehrere Datensätze konzentrieren sich speziell auf Szenarien mit umfangreichen Dokumenten oder Suchaufgaben, die mehrere Dokumente umfassen. - Hybride synthetische und Human-in-the-Loop-Erstellung:
Da wir uns der Grenzen der rein synthetischen Abfragegenerierung bewusst waren, haben wir einen hybriden Ansatz gewählt, bei dem Abfragen synthetisch generiert und anschließend durch menschliche Überprüfung umfassend verfeinert wurden. Dieser Prozess war zwar aufwendig, garantierte jedoch eine deutlich höhere Abfragequalität und Datensatzzuverlässigkeit.
- Blind Contextual Querying:
-
Datensatzauswahl für ViDoRe Benchmark V2
Die für den ViDoRe Benchmark V2 ausgewählten Datensätze sind vielfältig, öffentlich zugänglich und anspruchsvoll. Jeder Datensatz weist eine unterschiedliche visuelle Komplexität auf und eignet sich für realistische Suchaufgaben, darunter mehrsprachige Versionen mit Suchanfragen, die ins Französische, Englische, Spanische und Deutsche übersetzt wurden. Dieser mehrsprachige Ansatz erweitert die Anwendbarkeit und den Schwierigkeitsgrad des Benchmarks zusätzlich.

Modelle bewerten
Um Modelle auf ViDoRe Benchmark 2 zu bewerten, gehen wir wie folgt vor:
Option 1: Verwendung der CLI
Hier ist ein CLI-Beispiel für die Verwendung eines Retrievers vom Typ colpali auf dem Benchmark vidore 2. Für andere Retriever siehe [dieses Repo](https://github.com/illuin-tech/vidore-benchmark).
```bash
vidore-benchmark evaluate-retriever \
--model-class colpali \
--model-name vidore/colpali-v1.3 \
--collection-name vidore/vidore-benchmark-v2-dev-67ae03e3924e85b36e7f53b0 \
--dataset-format beir \
--split test
```
Option 2: Erstellen eines benutzerdefinierten Retrievers
Ausführliche Anweisungen dazu finden Sie unter:
https://github.com/illuin-tech/vidore-benchmark/blob/main/src/vidore_benchmark/retrievers/README.md
Ergebnisse
Hier sind beispielsweise einige Ergebnisse visueller Suchmodelle auf ViDoRe Benchmark 2:

Anmerkungen zum Benchmark:
Wir haben das Bewertungsverfahren für die voyageAI-API angepasst, was zu einer etwas geringeren Leistung beim ViDoRe-Benchmark v1 im Vergleich zu den von voyageAI angegebenen Werten führte. Diese Diskrepanz ist wahrscheinlich darauf zurückzuführen, dass wir die Eingabebilder auf eine maximale Bildhöhe von 1200 Pixeln verkleinert haben, um ein effizientes Benchmarking zu ermöglichen – ein Vorverarbeitungsschritt, der vermutlich im ursprünglichen Benchmarking-Setup von voyageAI nicht angewendet wurde.
Einblicke in die Ergebnisse
Erkenntnisse aus dem ViDoRe v2-Benchmark:
-
-
- Der ViDoRe v2-Benchmark weist eine starke Korrelation mit dem ursprünglichen ViDoRe-Benchmark auf, was sich in den übereinstimmenden Modellrankings beider Versionen zeigt.
- ViDoRe v2 bietet erheblichen Spielraum für zukünftige Verbesserungen, im Gegensatz zu ViDoRe v1, das sich der Leistungssättigung näherte (Werte über 90 %).
- Bestimmte Modelle weisen Anzeichen einer Überanpassung an die Trainingsverteilung auf, was zu einer verminderten Generalisierung auf neue Daten führt (z. B. scheinen vidore/colSmol-256M, vidore/colSmol-500M, Metric-AI/ColQwen2.5-3b-multilingual-v1.0 auf V2 schlechter abzuschneiden als ihre Leistung auf V1 vermuten ließ).
- Die mehrsprachigen Splits in ViDoRe v2 ermöglichen eine genauere Bewertung der Mehrsprachigkeit von visuellen Retriever-Modellen. Wir beobachten eine erhebliche Leistungslücke zwischen Modellen, die ausschließlich auf Englisch mit einem rein englischen VLM trainiert wurden, und solchen, bei denen dies nicht der Fall ist.
- Ein größerer Modellmaßstab ist vorteilhaft; insbesondere das Modell gme-qwen7B erzielt eine starke Gesamtleistung, verursacht jedoch erhebliche Rechenkosten und Inferenzlatenz. Umgekehrt bleiben Modelle mit weniger als 1 Milliarde Parametern, obwohl sie aufgrund ihrer Größe beeindruckend sind, tendenziell zurück, insbesondere bei zuvor unbekannten Datenverteilungen.
- Die bisher besten Modelle scheinen auf Qwen2.5 zu basieren, allerdings unterliegt dieses Modell keiner vollständig offenen Lizenz.
-

-
-
- Wir beobachten tendenziell eine bessere Trennung zwischen den Modellleistungen mit dem von Menschen gekennzeichneten Datensatz (esg_human), was darauf hindeutet, dass dieser von etwas höherer Qualität ist als die synthetischen Datensätze und ein aussagekräftigeres Signal darstellt.
-


Unser Ziel ist es, ViDoRe V2 zu einem dynamischen, „lebendigen Benchmark” zu machen, der regelmäßig um neue Aufgaben und Datensätze erweitert wird. Um dies zu erreichen, begrüßen und ermutigen wir die Community, Datensätze und Bewertungsaufgaben beizusteuern. Dieser kollaborative Ansatz trägt dazu bei, dass der Benchmark relevant und nützlich bleibt und die Herausforderungen der realen Welt widerspiegelt.
Danksagungen
Fachleute, die an tiefergehenden Diskussionen und Projekten rund um Visual RAG, ColPali oder agentenbasierte Systeme interessiert sind, können sich gerne an contact@illuin.tech und wenden Sie sich an unsere Experten bei ILLUIN, die Ihnen dabei helfen können, Ihre KI-Bemühungen zu beschleunigen!
Wir freuen uns auf Ihr Feedback und Ihre Beiträge! Wenn Sie über Dokumentensätze und zugehörige Abfragen verfügen, die Sie für eine Suchaufgabe interessant/herausfordernd finden, senden Sie uns gerne eine E-Mail!











