🔭 Publications R&D
ViDoRe Benchmark V3: A comprehensive evaluation of RAG in real-world use cases
✍️ G Viaud, Q Macé, A Edy, V Xing, M Faysse, A Loison, T Balough, G de Souza, B Liu | 📅 Novembre 2025 | 🔗 Hugging Face
Découvrez ViDoRe V3, un benchmark conçu et développé avec les contributions de NVIDIA et ILLUIN Technology, pour évaluer les pipelines RAG sur des documents d’entreprise visuellement riches. Il comprend 10 jeux de données, 26 000 pages et des annotations vérifiées par des experts humains dans 6 langues...
Context is Gold to find the Gold Passage: Evaluating and Training Contextual Doc Embeddings
✍️ M Conti, M Faysse, G Viaud, A Bosselut, C Hudelot, P Colombo | 📅 Mai 2025 | 🔗 arXiv
Les méthodes actuelles d’embeddings traitent les passages d’un document séparément, perdant souvent le contexte global. Nous introduisons ConTEB, un benchmark évaluant la prise en compte du contexte. Les modèles SOTA échouent dans ces cas. Pour y remédier, nous proposons InSeNT, une approche de post-entraînement contrastif combinée à un “late chunking pooling”. Elle améliore nettement la qualité de recherche, reste efficace et rend les embeddings plus robustes.
ViDoRe Benchmark V2: Raising the Bar for Visual Retrieval
✍️ Q Macé, A Loison, M Faysse | 📅 Mai 2025 | 🔗 arXiv, Google Scholar
Le benchmark ViDoRe V1 atteignait une saturation avec plus de 90 % nDCG@5, limitant la mesure des progrès. ViDoRe V2 introduit des scénarios de recherche plus réalistes et difficiles : requêtes contextuelles aveugles, longues, inter-documents, et générées via un mélange synthétique et humain. Il inclut quatre jeux de données multilingues avec des consignes claires. Les premiers résultats montrent un fort potentiel d’amélioration et invitent la communauté à enrichir ce benchmark vivant.
EuroBERT: Scaling Multilingual Encoders for European Languages (contribution)
✍️ N Boizard et al | 📅 Mars 2025 | 🔗 arXiv, Google Scholar
Les représentations vectorielles multilingues, souvent issues d’encodeurs bidirectionnels, sont désormais éclipsées par les modèles génératifs. Pourtant, plusieurs avancées récentes peuvent aussi bénéficier aux encodeurs. Ce travail présente EuroBERT, une famille d’encodeurs multilingues couvrant l’Europe et d’autres langues majeures. Les modèles surpassent les alternatives sur de nombreuses tâches, gèrent jusqu’à 8192 tokens et sont publiés avec données, checkpoints et framework.
MMTEB: Massive Multilingual Text Embedding Benchmark (contribution) (contribution)
✍️ K Enevoldsen et al | 📅 Février 2025 | 🔗 arXiv, Google Scholar
Les embeddings textuels sont souvent évalués sur peu de tâches, limitées en langue et en diversité. Pour y remédier, MMTEB étend MTEB avec plus de 500 tâches contrôlées couvrant 250+ langues, incluant instruction following, retrieval long-document et code. Les LLMs géants performent bien mais le meilleur modèle public reste multilingual-e5-large-instruct (560M). MMTEB propose aussi un échantillonnage et des splits optimisés, réduisant fortement les coûts de calcul tout en préservant les classements.
EuroLLM: Multilingual Language Models for Europe (contribution)
✍️ Pedro Henrique Martins, Patrick Fernandes, João Alves, Nuno M. Guerreiro, Ricardo Rei, Duarte M. Alves, José Pombal, Amin Farajian, Manuel Faysse, Mateusz Klimaszewski, Pierre Colombo, Barry Haddow, José G. C. de Souza, Alexandra Birch, André F. T. Martins | 📅 Septembre 2025 | 🔗 arXiv, Google Scholar
Les LLM open-weight progressent mais restent centrés sur l’anglais. Le projet EuroLLM vise à créer une suite de modèles multilingues couvrant toutes les langues officielles de l’UE et d’autres langues clés. Les auteurs décrivent la collecte et le filtrage des données, l’élaboration de lois d’échelle, le tokenizer multilingue et les choix de modélisation. Ils publient EuroLLM-1.7B et EuroLLM-1.7B-Instruct, évalués sur des benchmarks multilingues et la traduction automatique.
GroUSE: A Benchmark to Evaluate Evaluators in Grounded Question Answering
✍️ S Muller, A Loison, B Omrani, G Viaud | 📅 Septembre 2024 | 🔗 arXiv, Google Scholar, Connected Papers
Le RAG s’impose pour combiner LLMs et bases de connaissances, mais l’évaluation par LLM-as-a-Judge reste problématique. Les auteurs identifient 7 modes d’échec et présentent GroUSE, un benchmark de 144 tests unitaires. Ils montrent que les frameworks existants, même avec GPT-4, ignorent des erreurs clés. Leur pipeline révèle que les juges open-source généralisent mal. Le finetuning de Llama-3 sur les raisonnements de GPT-4 améliore nettement corrélation, calibration et détection des échecs.
ColPali: Efficient Document Retrieval with Vision Language Models
✍️ M Faysse, H Sibille, T Wu, B Omrani, G Viaud, C Hudelot, P Colombo | 📅 Septembre 2024 | 🔗 ArXiv, Hugging Face
Les documents véhiculent de l’information par le texte mais aussi par la mise en page, tableaux ou polices, éléments peu exploités par les systèmes de recherche actuels. Pour évaluer ce défi, ViDoRe propose des tâches de retrieval sur documents visuellement riches. Les auteurs présentent ColPali, un modèle vision-langage générant des embeddings multi-vecteurs directement depuis les pages. Avec un mécanisme d’interaction tardive, il surpasse largement les pipelines existants, tout en étant plus simple et rapide.
Towards Trustworthy Reranking: A Simple yet Effective Abstention Mechanism (contribution)
✍️ H Gisserot-Boukhlef, M Faysse, E Malherbe, C Hudelot, P Colombo | 📅 Avril 2024 | 🔗 ArXiv, Google Scholar, Connected Papers
Le Neural Information Retrieval (NIR) a surpassé les approches heuristiques mais échoue encore souvent à trouver les documents pertinents. Les auteurs proposent un mécanisme léger d’abstention, adapté aux contraintes réelles et ciblant la phase de reranking. Ils introduisent un protocole d’évaluation en contexte black-box, montrent l’efficacité de cette approche et présentent une méthode simple, guidée par les données. Le code est publié en open source pour faciliter réplication et adoption.
Copyright Traps for Large Language Models (contribution)
✍️ M Meeus, I Shilov, M Faysse, Y A de Montjoye | 📅 Juin 2024 | 🔗 ArXiv, Google Scholar, Connected Papers
L’usage de contenus protégés pour entraîner les LLMs soulève des débats. Les méthodes actuelles d’inférence de mémorisation échouent avec des modèles de taille moyenne qui mémorisent peu. Les auteurs proposent d’utiliser des “copyright traps” : phrases fictives insérées dans des œuvres. Dans un protocole contrôlé, ils montrent que seules des séquences longues et répétées de nombreuses fois sont détectables (AUC=0.75). Cette approche éclaire aussi les mécanismes de mémorisation des LLMs.
CroissantLLM: A Truly Bilingual French-English Language Model
✍️ M Faysse, P Fernandes, N M. Guerreiro, A Loison, D M Alves, C Corro, N Boizard, J Alves, R Rei, P H Martins, A B Casademunt, F Yvon, A F T Martins, G Viaud, C Hudelot, P Colombo | 📅 Mars 2024 | 🔗 ArXiv, Hugging Face, Google Scholar, Connected Papers
CroissantLLM est un modèle de 1,3B paramètres préentraîné sur 3T de tokens anglais et français avec un ratio 1:1, un tokenizer dédié et des jeux bilingues de finetuning. Il vise un usage performant et open source sur matériel grand public. Les auteurs publient données, code, checkpoints et modèles dérivés, ainsi que FrenchBench pour évaluer le français. Le modèle atteint 81 % des critères de transparence FMTI, dépassant largement les initiatives ouvertes existantes et renforçant la recherche multilingue.
Revisiting Instruction Fine-tuned Model Evaluation to Guide Industrial Applications
✍️ M Faysse, G Viaud, C Hudelot, P Colombo | 📅 Mars 2024 | 🔗 ACL (EMNLP), Connected Papers
L’Instruction Fine-Tuning (IFT) améliore fortement les capacités zero-shot des LLMs mais impose de nouveaux besoins en évaluation. Les auteurs montrent que les métriques basées sur LLMs répondent bien à ces exigences et les utilisent pour analyser différentes stratégies de spécialisation des tâches. Ils quantifient les compromis associés et fournissent aux praticiens des pistes concrètes pour le déploiement industriel de modèles IFT.
FQuAD2.0: French Question Answering and Knowing When You Don't Know
✍️ Q Heinrich, G Viaud, W Belblidia | 📅 Juin 2022 | 🔗 ACL (LREC), Connected Papers
Le Question Answering a connu de grands progrès mais reste centré sur l’anglais. Pour le français, Illuin Technology a lancé FQuAD1.1 (60k QA issues de Wikipédia). Ses limites : l’incapacité à détecter les questions sans réponse. FQuAD2.0 ajoute 17k questions non répondables, pour un total de 80k, permettant d’entraîner des modèles capables de distinguer ces cas. Un CamemBERT-large fine-tuné atteint 82,3 % F1 en classification et 83 % en compréhension de lecture.
Structural analysis of an all-purpose question answering model
✍️ V Micheli, Q Heinrich, F Fleuret, W Belblidia | 📅 Avril 2021 | 🔗 ArXiv, Google Scholar, Connected Papers
L’attention est centrale dans les modèles de langage pré-entraînés, permettant d’aborder plusieurs tâches à la fois. Les auteurs présentent un nouveau modèle de Question Answering polyvalent et constatent qu’il conserve ses performances mono-tâche malgré un faible transfert entre tâches. Leur analyse montre que les têtes d’attention se spécialisent par tâche et que certaines sont plus déterminantes que d’autres, en contexte multi-tâche comme mono-tâche.
On the importance of pre-training data volume for compact language models
✍️ V Micheli, M d'Hoffschmidt, F Fleuret | 📅 Novembre 2020 | 🔗 ACL (EMNLP), Connected Papers
Les modèles de langage récents exigent d’importantes ressources. Dans une optique de durabilité, les auteurs étudient l’impact du volume de données de pré-entraînement sur des modèles compacts basés sur BERT en français. En les évaluant sur FQuAD, ils montrent qu’un bon niveau de performance est atteint avec seulement 100 Mo de texte. De plus, au-delà de très faibles volumes, un pré-entraînement intermédiaire sur corpus spécifique n’apporte pas de gain notable.
FQuAD: French Question Answering Dataset
✍️ M d’Hoffschmidt, W Belblidia, Q Heinrich, T Brendlé, M Vidal | 📅 Novembre 2020 | 🔗 ACL (EMNLP), Connected Papers
Les progrès récents du NLP ont fortement amélioré la compréhension de lecture, mais surtout en anglais faute de ressources dans d’autres langues. Les auteurs présentent FQuAD, un dataset natif français de QA sur Wikipédia : 25k exemples pour la v1.0 et 60k pour la v1.1. Un modèle de base atteint 92,2 F1 et 82,1 EM. Pour suivre les avancées, un leaderboard est proposé et la v1.0 est mise en libre accès via le site dédié.

