F&E-Veröffentlichungen | ILLUIN Technology

🔭 Veröffentlichungen zu Forschung und Entwicklung

ViDoRe Benchmark V3: Eine umfassende Bewertung von RAG in realen Anwendungsfällen





✍️ G Viaud, Q Macé, A Edy, V Xing, M Faysse, A Loison, T Balough, G de Souza, B Liu | 📅 November 2025 | 🔗 Hugging Face

Entdecken Sie ViDoRe V3, einen Benchmark, der mit Beiträgen von NVIDIA und ILLUIN Technology entwickelt wurde, um RAG-Pipelines anhand visuell reichhaltiger Unternehmensdokumente zu bewerten. Er umfasst 10 Datensätze, 26.000 Seiten und von menschlichen Experten überprüfte Anmerkungen in 6 Sprachen...

Der Kontext ist Gold, um den goldenen Durchgang zu finden: Bewertung und Training kontextbezogener Dokument-Einbettungen





✍️ M. Conti, M. Faysse, G. Viaud, A. Bosselut, C. Hudelot, P. Colombo | 📅 Mai 2025 | 🔗 arXiv

Aktuelle Einbettungsmethoden behandeln Passagen eines Dokuments separat, wodurch häufig der Gesamtkontext verloren geht. Wir stellen ConTEB vor, einen Benchmark, der die Berücksichtigung des Kontexts bewertet. SOTA-Modelle versagen in diesen Fällen. Um dies zu beheben, schlagen wir InSeNT vor, einen kontrastiven Post-Training-Ansatz in Kombination mit „Late Chunking Pooling”. Er verbessert die Suchqualität deutlich, bleibt effizient und macht die Einbettungen robuster.

ViDoRe Benchmark V2: Höhere Maßstäbe für die visuelle Suche





✍️ Q Macé, A Loison, M Faysse | 📅 Mai 2025 | 🔗 arXiv, Google Scholar

Der Benchmark ViDoRe V1 erreichte mit über 90 % nDCG@5 eine Sättigung, wodurch die Messung der Fortschritte eingeschränkt wurde. ViDoRe V2 führt realistischere und schwierigere Suchszenarien ein: kontextblinde, lange, dokumentübergreifende Suchanfragen, die durch eine Mischung aus synthetischen und menschlichen Eingaben generiert werden. Es umfasst vier mehrsprachige Datensätze mit klaren Anweisungen. Die ersten Ergebnisse zeigen ein großes Verbesserungspotenzial und laden die Community dazu ein, diesen lebendigen Benchmark zu bereichern.

EuroBERT: Skalierung mehrsprachiger Encoder für europäische Sprachen (Beitrag)





✍️ N Boizard et al | 📅 März 2025 | 🔗 arXiv, Google Scholar

Mehrsprachige Vektordarstellungen, die häufig aus bidirektionalen Encodern stammen, werden mittlerweile von generativen Modellen in den Schatten gestellt. Dennoch können mehrere aktuelle Fortschritte auch den Encodern zugutekommen. Diese Arbeit stellt EuroBERT vor, eine Familie mehrsprachiger Encoder, die Europa und andere wichtige Sprachen abdecken. Die Modelle übertreffen die Alternativen bei vielen Aufgaben, verarbeiten bis zu 8192 Token und werden zusammen mit Daten, Checkpoints und Framework veröffentlicht.

MMTEB: Massive Multilingual Text Embedding Benchmark (Beitrag) (Beitrag)





✍️ K Enevoldsen et al | 📅 Februar 2025 | 🔗 arXiv, Google Scholar

Text-Embeddings werden oft anhand weniger Aufgaben bewertet, die in Bezug auf Sprache und Vielfalt begrenzt sind. Um dem entgegenzuwirken, erweitert MMTEB MTEB um mehr als 500 kontrollierte Aufgaben, die über 250 Sprachen abdecken, darunter Instruction Following, Long-Document Retrieval und Code. Die riesigen LLMs schneiden gut ab, aber das beste öffentliche Modell bleibt multilingual-e5-large-instruct (560M). MMTEB bietet auch optimierte Stichproben und Aufteilungen, wodurch die Rechenkosten erheblich gesenkt werden, während die Rankings erhalten bleiben.

EuroLLM: Mehrsprachige Sprachmodelle für Europa (Beitrag)





✍️ Pedro Henrique Martins, Patrick Fernandes, João Alves, Nuno M. Guerreiro, Ricardo Rei, Duarte M. Alves, José Pombal, Amin Farajian, Manuel Faysse, Mateusz Klimaszewski, Pierre Colombo, Barry Haddow, José G. C. de Souza, Alexandra Birch, André F. T. Martins | 📅 September 2025 | 🔗 arXiv, Google Scholar

Open-Weight-LLMs machen Fortschritte, konzentrieren sich jedoch weiterhin auf Englisch. Das EuroLLM-Projekt zielt darauf ab, eine Reihe mehrsprachiger Modelle zu entwickeln, die alle Amtssprachen der EU und andere wichtige Sprachen abdecken. Die Autoren beschreiben die Datenerfassung und -filterung, die Entwicklung von Skalengesetzen, den mehrsprachigen Tokenizer und die Modellierungsentscheidungen. Sie veröffentlichen EuroLLM-1.7B und EuroLLM-1.7B-Instruct, die anhand mehrsprachiger Benchmarks und maschineller Übersetzung bewertet wurden.

GroUSE: Ein Maßstab zur Bewertung von Bewertern bei der fundierten Beantwortung von Fragen





✍️ S Muller, A Loison, B Omrani, G Viaud | 📅 September 2024 | 🔗 arXiv, Google Scholar, Connected Papers

RAG ist unverzichtbar, um LLMs und Wissensdatenbanken zu kombinieren, aber die Bewertung durch LLM-as-a-Judge bleibt problematisch. Die Autoren identifizieren sieben Arten von Fehlern und stellen GroUSE vor, einen Benchmark mit 144 Einzeltests. Sie zeigen, dass bestehende Frameworks selbst mit GPT-4 wichtige Fehler ignorieren. Ihre Pipeline zeigt, dass Open-Source-Richter schlecht verallgemeinern. Das Fine-Tuning von Llama-3 auf die Schlussfolgerungen von GPT-4 verbessert die Korrelation, Kalibrierung und Fehlererkennung deutlich.

ColPali: Effiziente Dokumentensuche mit Vision-Sprachmodellen





✍️ M. Faysse, H. Sibille, T. Wu, B. Omrani, G. Viaud, C. Hudelot, P. Colombo | 📅 September 2024 | 🔗 ArXiv, Hugging Face

Dokumente vermitteln Informationen nicht nur durch den Text, sondern auch durch das Layout, Tabellen oder Schriftarten, Elemente, die von den aktuellen Suchsystemen kaum genutzt werden. Um diese Herausforderung zu bewerten, bietet ViDoRe Suchaufgaben für visuell reichhaltige Dokumente an. Die Autoren stellen ColPali vor, ein Bild-Sprach-Modell, das direkt aus den Seiten Multi-Vektor-Einbettungen generiert. Mit einem Mechanismus der verzögerten Interaktion übertrifft es bestehende Pipelines bei weitem und ist dabei einfacher und schneller.

Auf dem Weg zu einem vertrauenswürdigen Reranking: Ein einfacher, aber wirksamer Abstimmungsmechanismus (Beitrag)





✍️ H. Gisserot-Boukhlef, M. Faysse, E. Malherbe, C. Hudelot, P. Colombo | 📅 April 2024 | 🔗 ArXiv, Google Scholar, Connected Papers

Neural Information Retrieval (NIR) hat heuristische Ansätze übertroffen, scheitert jedoch häufig noch daran, relevante Dokumente zu finden. Die Autoren schlagen einen leichtgewichtigen Mechanismus vor, der an die tatsächlichen Einschränkungen angepasst ist und auf die Neurangierungsphase abzielt. Sie führen ein Bewertungsprotokoll im Black-Box-Kontext ein, zeigen die Wirksamkeit dieses Ansatzes und stellen eine einfache, datengesteuerte Methode vor. Der Code wird als Open Source veröffentlicht, um die Nachbildung und Übernahme zu erleichtern.

Copyright-Fallstricke für große Sprachmodelle (Beitrag)





✍️ M. Meeus, I. Shilov, M. Faysse, Y. A. de Montjoye | 📅 Juni 2024 | 🔗 ArXiv, Google Scholar, Connected Papers

Die Verwendung geschützter Inhalte zum Trainieren von LLMs sorgt für Diskussionen. Aktuelle Methoden zur Inferenz von Gedächtnisleistungen versagen bei mittelgroßen Modellen, die nur wenig speichern können. Die Autoren schlagen vor, „Copyright Traps” zu verwenden: fiktive Sätze, die in Werke eingefügt werden. In einem kontrollierten Protokoll zeigen sie, dass nur lange und mehrfach wiederholte Sequenzen erkennbar sind (AUC=0,75). Dieser Ansatz beleuchtet auch die Speichermechanismen von LLMs.

CroissantLLM: Ein wirklich zweisprachiges französisch-englisches Sprachmodell





✍️ M. Faysse, P. Fernandes, N. M. Guerreiro, A. Loison, D. M. Alves, C. Corro, N. Boizard, J. Alves, R. Rei, P. H. Martins, A. B. Casademunt, F. Yvon, A. F. T. Martins, G. Viaud, C. Hudelot, P. Colombo | 📅 März 2024 | 🔗 ArXiv, Hugging Face, Google Scholar, Connected Papers

CroissantLLM ist ein Modell mit 1,3 Milliarden Parametern, das auf 3T englischen und französischen Tokens mit einem Verhältnis von 1:1, einem dedizierten Tokenizer und zweisprachigen Finetuning-Sets vortrainiert wurde. Es zielt auf eine leistungsstarke und quelloffene Nutzung auf handelsüblicher Hardware ab. Die Autoren veröffentlichen Daten, Code, Checkpoints und abgeleitete Modelle sowie FrenchBench zur Bewertung des Französischen. Das Modell erfüllt 81 % der FMTI-Transparenzkriterien, übertrifft damit bei weitem bestehende offene Initiativen und stärkt die mehrsprachige Forschung.

Überarbeitung der Bewertung fein abgestimmter Modelle zur Steuerung industrieller Anwendungen





✍️ M. Faysse, G. Viaud, C. Hudelot, P. Colombo | 📅 März 2024 | 🔗 ACL (EMNLP), Connected Papers

Fine-Tuning-Instruktion (IFT) verbessert die Zero-Shot-Fähigkeiten von LLMs erheblich, stellt jedoch neue Anforderungen an die Bewertung. Die Autoren zeigen, dass auf LLMs basierende Metriken diese Anforderungen gut erfüllen, und verwenden sie zur Analyse verschiedener Strategien zur Aufgabenspezialisierung. Sie quantifizieren die damit verbundenen Kompromisse und geben Praktikern konkrete Anhaltspunkte für den industriellen Einsatz von IFT-Modellen.

FQuAD2.0: Französische Fragen beantworten und wissen, wann man etwas nicht weiß





✍️ Q Heinrich, G Viaud, W Belblidia | 📅 Juni 2022 | 🔗 ACL (LREC), Connected Papers

Das Question Answering hat große Fortschritte gemacht, konzentriert sich jedoch weiterhin auf die englische Sprache. Für die französische Sprache hat Illuin Technology FQuAD1.1 (60.000 QA aus Wikipedia) eingeführt. Seine Grenzen: die Unfähigkeit, unbeantwortete Fragen zu erkennen. FQuAD2.0 fügt 17.000 unbeantwortbare Fragen hinzu, sodass insgesamt 80.000 Fragen zur Verfügung stehen, mit denen Modelle trainiert werden können, die diese Fälle unterscheiden können. Ein fein abgestimmtes CamemBERT-large erreicht 82,3 % F1 bei der Klassifizierung und 83 % beim Leseverständnis.

Strukturanalyse eines universellen Modells zur Beantwortung von Fragen





✍️ V Micheli, Q Heinrich, F Fleuret, W Belblidia | 📅 April 2021 | 🔗 ArXiv, Google Scholar, Connected Papers

Die Aufmerksamkeit spielt in vortrainierten Sprachmodellen eine zentrale Rolle, da sie es ermöglicht, mehrere Aufgaben gleichzeitig zu bearbeiten. Die Autoren stellen ein neues vielseitiges Frage-Antwort-Modell vor und stellen fest, dass es trotz geringer Übertragung zwischen den Aufgaben seine Einzeleinstellungsleistung beibehält. Ihre Analyse zeigt, dass sich die Aufmerksamkeitsköpfe je nach Aufgabe spezialisieren und dass einige in einem Multitasking-Kontext wie auch in einem Einzeleinstellungskontext entscheidender sind als andere.

Zur Bedeutung des Volumens der Vorab-Trainingsdaten für kompakte Sprachmodelle





✍️ V Micheli, M d'Hoffschmidt, F Fleuret | 📅 November 2020 | 🔗 ACL (EMNLP), Connected Papers

Aktuelle Sprachmodelle erfordern erhebliche Ressourcen. Im Hinblick auf die Nachhaltigkeit untersuchen die Autoren die Auswirkungen des Volumens der Vorab-Trainingsdaten auf kompakte Modelle auf Basis von BERT im Französischen. Durch die Bewertung dieser Modelle auf FQuAD zeigen sie, dass bereits mit nur 100 MB Text eine gute Leistungsfähigkeit erreicht wird. Darüber hinaus bringt ein intermediäres Vorab-Training auf einem spezifischen Korpus ab einem sehr geringen Volumen keinen nennenswerten Gewinn mehr.

FQuAD: Französischer Datensatz für Fragen und Antworten





✍️ M. d’Hoffschmidt, W. Belblidia, Q. Heinrich, T. Brendlé, M. Vidal | 📅 November 2020 | 🔗 ACL (EMNLP), Connected Papers

Die jüngsten Fortschritte im Bereich NLP haben das Leseverständnis erheblich verbessert, allerdings vor allem im Englischen, da für andere Sprachen keine Ressourcen zur Verfügung stehen. Die Autoren stellen FQuAD vor, einen nativen französischen QA-Datensatz auf Wikipedia: 25.000 Beispiele für v1.0 und 60.000 für v1.1. Ein Basismodell erreicht 92,2 F1 und 82,1 EM. Um die Fortschritte zu verfolgen, wird eine Rangliste angeboten und v1.0 ist über die entsprechende Website frei zugänglich.