Publicaciones I+D | ILLUIN Technology

🔭 Publicaciones de I+D

ViDoRe Benchmark V3: Una evaluación exhaustiva de RAG en casos de uso reales





✍️ G Viaud, Q Macé, A Edy, V Xing, M Faysse, A Loison, T Balough, G de Souza, B Liu | 📅 Noviembre de 2025 | 🔗 Hugging Face

Descubra ViDoRe V3, un benchmark diseñado y desarrollado con la colaboración de NVIDIA e ILLUIN Technology para evaluar los pipelines RAG en documentos empresariales con gran riqueza visual. Incluye 10 conjuntos de datos, 26 000 páginas y anotaciones verificadas por expertos humanos en 6 idiomas...

El contexto es clave para encontrar el pasaje clave: evaluación y entrenamiento de incrustaciones de documentos contextuales





✍️ M Conti, M Faysse, G Viaud, A Bosselut, C Hudelot, P Colombo | 📅 Mayo de 2025 | 🔗 arXiv

Los métodos actuales de incrustación tratan los pasajes de un documento por separado, lo que a menudo hace que se pierda el contexto global. Presentamos ConTEB, un punto de referencia que evalúa la consideración del contexto. Los modelos SOTA fallan en estos casos. Para remediarlo, proponemos InSeNT, un enfoque de post-entrenamiento contrastivo combinado con un «late chunking pooling». Mejora notablemente la calidad de la búsqueda, sigue siendo eficaz y hace que las incrustaciones sean más robustas.

ViDoRe Benchmark V2: elevando el listón de la recuperación visual





✍️ Q Macé, A Loison, M Faysse | 📅 Mayo de 2025 | 🔗 arXiv, Google Scholar

El benchmark ViDoRe V1 alcanzaba la saturación con más del 90 % nDCG@5, lo que limitaba la medición del progreso. ViDoRe V2 introduce escenarios de búsqueda más realistas y difíciles: consultas contextuales ciegas, largas, entre documentos y generadas mediante una mezcla sintética y humana. Incluye cuatro conjuntos de datos multilingües con instrucciones claras. Los primeros resultados muestran un gran potencial de mejora e invitan a la comunidad a enriquecer este benchmark vivo.

EuroBERT: Escalado de codificadores multilingües para lenguas europeas (contribución)





✍️ N Boizard et al | 📅 Marzo de 2025 | 🔗 arXiv, Google Scholar

Las representaciones vectoriales multilingües, a menudo generadas por codificadores bidireccionales, han quedado eclipsadas por los modelos generativos. Sin embargo, varios avances recientes también pueden beneficiar a los codificadores. Este trabajo presenta EuroBERT, una familia de codificadores multilingües que abarca Europa y otras lenguas importantes. Los modelos superan a las alternativas en numerosas tareas, gestionan hasta 8192 tokens y se publican con datos, puntos de control y marco de trabajo.

MMTEB: Massive Multilingual Text Embedding Benchmark (contribución) (contribución)





✍️ K Enevoldsen et al | 📅 Febrero de 2025 | 🔗 arXiv, Google Scholar

Las incrustaciones textuales suelen evaluarse en pocas tareas, limitadas en cuanto a idioma y diversidad. Para remediarlo, MMTEB amplía MTEB con más de 500 tareas controladas que abarcan más de 250 idiomas, incluyendo seguimiento de instrucciones, recuperación de documentos largos y código. Los LLM gigantes funcionan bien, pero el mejor modelo público sigue siendo multilingual-e5-large-instruct (560M). MMTEB también ofrece un muestreo y divisiones optimizados, lo que reduce considerablemente los costes de cálculo y mantiene las clasificaciones.

EuroLLM: Modelos lingüísticos multilingües para Europa (contribución)





✍️ Pedro Henrique Martins, Patrick Fernandes, João Alves, Nuno M. Guerreiro, Ricardo Rei, Duarte M. Alves, José Pombal, Amin Farajian, Manuel Faysse, Mateusz Klimaszewski, Pierre Colombo, Barry Haddow, José G. C. de Souza, Alexandra Birch, André F. T. Martins | 📅 Septiembre de 2025 | 🔗 arXiv, Google Scholar

Los LLM de peso abierto están avanzando, pero siguen centrados en el inglés. El proyecto EuroLLM tiene como objetivo crear un conjunto de modelos multilingües que cubran todos los idiomas oficiales de la UE y otros idiomas clave. Los autores describen la recopilación y el filtrado de datos, el desarrollo de leyes de escala, el tokenizador multilingüe y las opciones de modelización. Publican EuroLLM-1.7B y EuroLLM-1.7B-Instruct, evaluados en benchmarks multilingües y traducción automática.

GroUSE: un punto de referencia para evaluar a los evaluadores en la respuesta a preguntas fundamentadas





✍️ S Muller, A Loison, B Omrani, G Viaud | 📅 Septiembre de 2024 | 🔗 arXiv, Google Scholar, Connected Papers

El RAG es imprescindible para combinar los LLM y las bases de conocimiento, pero la evaluación mediante LLM-as-a-Judge sigue siendo problemática. Los autores identifican siete modos de fallo y presentan GroUSE, un benchmark de 144 pruebas unitarias. Demuestran que los marcos existentes, incluso con GPT-4, ignoran errores clave. Su pipeline revela que los jueces de código abierto generalizan mal. El ajuste fino de Llama-3 sobre los razonamientos de GPT-4 mejora significativamente la correlación, la calibración y la detección de fallos.

ColPali: Recuperación eficiente de documentos con modelos de lenguaje visual





✍️ M Faysse, H Sibille, T Wu, B Omrani, G Viaud, C Hudelot, P Colombo | 📅 Septiembre de 2024 | 🔗 ArXiv, Hugging Face

Los documentos transmiten información a través del texto, pero también a través del diseño, las tablas o las fuentes, elementos que los sistemas de búsqueda actuales apenas aprovechan. Para evaluar este reto, ViDoRe propone tareas de recuperación en documentos visualmente ricos. Los autores presentan ColPali, un modelo de visión-lenguaje que genera incrustaciones multivectoriales directamente desde las páginas. Con un mecanismo de interacción tardía, supera con creces a los procesos existentes, además de ser más sencillo y rápido.

Hacia una reclasificación fiable: un mecanismo de abstención sencillo pero eficaz (contribución)





✍️ H Gisserot-Boukhlef, M Faysse, E Malherbe, C Hudelot, P Colombo | 📅 Abril de 2024 | 🔗 ArXiv, Google Scholar, Connected Papers

La recuperación de información neuronal (NIR) ha superado a los enfoques heurísticos, pero a menudo sigue sin encontrar los documentos pertinentes. Los autores proponen un mecanismo ligero de abstención, adaptado a las limitaciones reales y centrado en la fase de reclasificación. Introducen un protocolo de evaluación en contexto de caja negra, demuestran la eficacia de este enfoque y presentan un método sencillo, guiado por los datos. El código se publica en código abierto para facilitar su replicación y adopción.

Trampas de derechos de autor para modelos lingüísticos de gran tamaño (contribución)





✍️ M Meeus, I Shilov, M Faysse, Y A de Montjoye | 📅 Junio de 2024 | 🔗 ArXiv, Google Scholar, Connected Papers

El uso de contenidos protegidos para entrenar los LLM suscita debate. Los métodos actuales de inferencia de memorización fallan con modelos de tamaño medio que memorizan poco. Los autores proponen utilizar «trampas de derechos de autor»: frases ficticias insertadas en obras. En un protocolo controlado, demuestran que solo son detectables las secuencias largas y repetidas muchas veces (AUC = 0,75). Este enfoque también aclara los mecanismos de memorización de los LLM.

CroissantLLM: un modelo lingüístico verdaderamente bilingüe francés-inglés





✍️ M Faysse, P Fernandes, N M. Guerreiro, A Loison, D M Alves, C Corro, N Boizard, J Alves, R Rei, P H Martins, A B Casademunt, F Yvon, A F T Martins, G Viaud, C Hudelot, P Colombo | 📅 Marzo de 2024 | 🔗 ArXiv, Hugging Face, Google Scholar, Connected Papers

CroissantLLM es un modelo de 1,3B parámetros preentrenado con 3T de tokens en inglés y francés con una proporción 1:1, un tokenizador dedicado y conjuntos bilingües de ajuste fino. Su objetivo es ofrecer un rendimiento eficaz y código abierto en equipos de consumo. Los autores publican datos, código, puntos de control y modelos derivados, así como FrenchBench para evaluar el francés. El modelo alcanza el 81 % de los criterios de transparencia FMTI, superando con creces las iniciativas abiertas existentes y reforzando la investigación multilingüe.

Revisión de la evaluación del modelo ajustado de instrucción para orientar las aplicaciones industriales





✍️ M. Faysse, G. Viaud, C. Hudelot, P. Colombo | 📅 Marzo de 2024 | 🔗 ACL (EMNLP), Connected Papers

El Fine-Tuning (IFT) mejora considerablemente las capacidades zero-shot de los LLM, pero impone nuevas necesidades en materia de evaluación. Los autores demuestran que las métricas basadas en LLM responden bien a estas exigencias y las utilizan para analizar diferentes estrategias de especialización de tareas. Cuantifican las compensaciones asociadas y proporcionan a los profesionales pistas concretas para el despliegue industrial de modelos IFT.

FQuAD2.0: Respuestas a preguntas en francés y saber cuándo no se sabe





✍️ Q Heinrich, G Viaud, W Belblidia | 📅 Junio de 2022 | 🔗 ACL (LREC), artículos relacionados

La tecnología Question Answering ha experimentado grandes avances, pero sigue centrada en el inglés. Para el francés, Illuin Technology ha lanzado FQuAD1.1 (60 000 preguntas y respuestas extraídas de Wikipedia). Sus limitaciones: la incapacidad de detectar preguntas sin respuesta. FQuAD2.0 añade 17 000 preguntas sin respuesta, hasta un total de 80 000, lo que permite entrenar modelos capaces de distinguir estos casos. Un CamemBERT-large ajustado alcanza un 82,3 % de F1 en clasificación y un 83 % en comprensión lectora.

Análisis estructural de un modelo de respuesta a preguntas para todo uso





✍️ V Micheli, Q Heinrich, F Fleuret, W Belblidia | 📅 Abril de 2021 | 🔗 ArXiv, Google Scholar, Connected Papers

La atención es fundamental en los modelos de lenguaje preentrenados, ya que permite abordar varias tareas a la vez. Los autores presentan un nuevo modelo versátil de respuesta a preguntas y observan que mantiene su rendimiento en tareas únicas a pesar de la escasa transferencia entre tareas. Su análisis muestra que las cabezas de atención se especializan por tarea y que algunas son más determinantes que otras, tanto en contextos multitarea como en tareas únicas.

Sobre la importancia del volumen de datos de preentrenamiento para los modelos lingüísticos compactos





✍️ V Micheli, M d'Hoffschmidt, F Fleuret | 📅 Noviembre de 2020 | 🔗 ACL (EMNLP), Connected Papers

Los modelos de lenguaje recientes requieren importantes recursos. Con miras a la sostenibilidad, los autores estudian el impacto del volumen de datos de preentrenamiento en modelos compactos basados en BERT en francés. Al evaluarlos en FQuAD, demuestran que se alcanza un buen nivel de rendimiento con solo 100 MB de texto. Además, más allá de volúmenes muy reducidos, un preentrenamiento intermedio en un corpus específico no aporta ninguna mejora notable.

FQuAD: Conjunto de datos de preguntas y respuestas en francés





✍️ M. d'Hoffschmidt, W. Belblidia, Q. Heinrich, T. Brendlé, M. Vidal | 📅 Noviembre de 2020 | 🔗 ACL (EMNLP), Connected Papers

Los recientes avances en el procesamiento del lenguaje natural (NLP) han mejorado considerablemente la comprensión lectora, pero sobre todo en inglés, debido a la falta de recursos en otros idiomas. Los autores presentan FQuAD, un conjunto de datos nativo en francés de preguntas y respuestas en Wikipedia: 25 000 ejemplos para la v1.0 y 60 000 para la v1.1. Un modelo básico alcanza 92,2 F1 y 82,1 EM. Para seguir los avances, se propone una tabla de clasificación y la v1.0 se pone a disposición del público a través del sitio web dedicado.