ILLUIN Technology und CentraleSupélec sind stolz darauf , mit ColPali einen neuen innovativen Ansatz im Bereich Retrieval-Augmented Generation (RAG) für komplexe Dokumentenkorpusse vorzustellen : Efficient Document Retrieval with Vision Language Models.
Informationen in komplexen Dokumenten suchen
Angesichts der Schwierigkeit, Informationen in komplexen Dokumenten – die oft Bilder, Tabellen und Diagramme enthalten – effizient zu suchen, haben wir an der Entwicklung einer innovativen Lösung gearbeitet. Dieser neue Ansatz ist in unsere Produkte (ILLUIN Search und ILLUIN Dialogue) sowie in die von uns realisierten maßgeschneiderten GenAI-Projekte integriert.
Die traditionellen Pipelines zur Dokumentenindexierung erfolgen in zwei Hauptschritten:
- 🔄 Verwendung zahlreicher Computer-Vision-Modelle, um die Struktur des Dokuments zu verstehen und den Text daraus zu extrahieren.
- 🗂️ Indizierung des Textes unter Verwendung von Textdarstellungen für einen späteren Abruf (Retrieving).
Diese Methode hat jedoch ihre Grenzen: Langsamkeit, Fehlerverbreitung und ein eingeschränktes Verständnis der visuellen Elemente eines Dokuments. Um diese Nachteile zu beheben, haben wir eine besser geeignete Darstellung des Dokuments entwickelt.
Die wichtigsten Beiträge zu diesem Fortschritt
In dieser Veröffentlichung werden zwei Hauptbeiträge vorgestellt:
- 📚 Der ViDoRe-Benchmark (Visual Document Retrieval): Der erste Open-Source-Benchmark, der die Qualität von Retrievern bei der Suche nach visuell reichhaltigen Informationen in komplexen Dokumenten bewertet.
- 🤖 Das ColPali-Modell: ein innovativer Ansatz, der auf dem VLM-Modell PaliGemma von Google basiert und eine multivektoriellen Darstellung des Dokuments erstellt. Dieses Modell nutzt den „Late Interaction”-Mechanismus von Colbert für eine präzise und effiziente Zuordnung der Suchbegriffe zu den Dokumentausschnitten während der Inferenz.
Vielversprechende Ergebnisse
ColPali zeichnet sich durch eine höhere Leistung und Geschwindigkeit aus als andere Methoden, einschließlich solcher, die auf der Bildbeschriftung mit dem Claude Sonnet-Modell von Anthropic basieren. Dieser Fortschritt zeigt das Potenzial von Vision Language Models (VLM) für die Dokumentensuche. 📈
Mehr erfahren finden Sie in der vollständigen Veröffentlichung auf arxiv.org und unter:
- Die Organisation HuggingFace
- Der Blogbeitrag von Manuel Faysse

Danksagung
Ein großes Lob an alle Mitwirkenden: Manuel Faysse, Hugues Sibille, Tony Wu, Bilel Omrani, Celine Hudelot, Pierre Colombo sowie an das Team von CINES für die Berechnungsressourcen auf ADASTRA. 👏
CC: Robert VESOUL, Wacim Belblidia, Paul-Henry Cournède, Renaud Monnet











