18 de marzo de 2025 • Escrito por Manuel Faysse, Quentin Macé y Antonio Loison
¿Por qué un nuevo punto de referencia?
Desde el lanzamiento del ViDoRe Benchmark original, los modelos de recuperación visual han avanzado significativamente. Mientras que el modelo ColPali original registró una puntuación media de 81,3 nDCG@5, los modelos SOTA actuales en la clasificación superan un nDCG@5 de 90, y algunas tareas se han vuelto «demasiado fáciles» para producir una señal significativa.
Con el punto de referencia acercándose a la saturación para los modelos SOTA, hay poco margen para medir realmente las mejoras y comprender las capacidades de los modelos en escenarios realistas. Para seguir ampliando los límites de la recuperación visual, se hizo imprescindible introducir un nuevo punto de referencia diseñado específicamente para poner a prueba estos modelos avanzados: ViDoRe (Visual Document Retrieval) Benchmark V2.
Motivación para la creación de ViDoRe Benchmark V2
Al desarrollar ViDoRe Benchmark V2, nuestro objetivo principal era crear un punto de referencia que reflejara los retos reales de la recuperación de información: difíciles, diversos y significativos. Los puntos de referencia actuales presentan limitaciones que les impiden reflejar con precisión el comportamiento real de los usuarios y los complejos escenarios de recuperación. Identificamos tres problemas críticos en los puntos de referencia existentes:
- Naturaleza extractiva de las consultas:
Los puntos de referencia actuales suelen basarse en consultas extractivas, lo que proporciona contextos de recuperación poco realistas, ya que los usuarios reales rara vez formulan consultas a partir de frases exactas de los documentos. - Sesgo de consulta de una sola página:
Muchos puntos de referencia hacen demasiado hincapié en la recuperación de contextos de una sola página, descuidando las consultas complejas, de varios documentos o entre documentos, que son habituales en las aplicaciones del mundo real. - Retos en la generación de consultas sintéticas:
Los benchmarks puramente sintéticos, aunque atractivos en teoría, son difíciles de implementar de manera eficaz sin una supervisión manual exhaustiva. A menudo producen consultas atípicas, irrelevantes o triviales, lo que hace que el filtrado humano sea esencial, pero costoso.
Decisiones y técnicas de diseño utilizadas
Para abordar estos retos y crear un punto de referencia sólido y realista, ViDoRe Benchmark V2 incluye varias características innovadoras:
-
-
- Consulta contextual ciega:
En la práctica, los usuarios no suelen conocer el contenido del corpus que están consultando. Para reducir el sesgo extractivo generalizado en la mayoría de los conjuntos de datos sintéticos de consultas y documentos (los conjuntos de datos suelen crearse con conocimiento del contenido del documento), solo proporcionamos a los modelos de anotación de consultas información limitada sobre el documento (resúmenes, metadatos, etc.) y filtramos las numerosas consultas irrelevantes que se obtuvieron, reproduciendo mejor las interacciones reales de los usuarios con el corpus. - Consultas largas y entre documentos:
A diferencia de los benchmarks tradicionales, ViDoRe Benchmark V2 hace hincapié en las consultas largas y entre documentos, lo que refleja fielmente las situaciones de recuperación en el mundo real. Múltiples conjuntos de datos se centran específicamente en escenarios que implican documentos completos o tareas de recuperación de varios documentos. - Creación híbrida sintética y con intervención humana:
Reconociendo las limitaciones de la generación sintética de consultas por sí sola, adoptamos un enfoque híbrido: generar consultas sintéticamente y refinarlas exhaustivamente mediante la revisión humana. Este proceso, aunque intensivo, garantizó una calidad de consulta y una fiabilidad del conjunto de datos significativamente mayores.
- Consulta contextual ciega:
-
Selección de conjuntos de datos para ViDoRe Benchmark V2
Los conjuntos de datos seleccionados para ViDoRe Benchmark V2 son diversos, están disponibles públicamente y suponen un reto. Cada conjunto de datos presenta una complejidad visual distinta y es adecuado para tareas de recuperación realistas, incluidas versiones multilingües con consultas traducidas al francés, inglés, español y alemán. Este enfoque multilingüe amplía aún más la aplicabilidad y el nivel de dificultad del benchmark.

Evaluación de modelos
Para evaluar los modelos en ViDoRe Benchmark 2, seguimos estos pasos:
Opción 1: Uso de la CLI
Aquí hay un ejemplo de CLI para usar un recuperador de tipo colpali en el benchmark 2 de vidore. Para otros recuperadores, consulte [este repositorio](https://github.com/illuin-tech/vidore-benchmark).
```bash
vidore-benchmark evaluate-retriever \
--model-class colpali \
--model-name vidore/colpali-v1.3 \
--collection-name vidore/vidore-benchmark-v2-dev-67ae03e3924e85b36e7f53b0 \
--dataset-format beir \
--split test
```
Opción 2: Creación de un recuperador personalizado
Hay instrucciones detalladas sobre cómo hacerlo disponibles en:
https://github.com/illuin-tech/vidore-benchmark/blob/main/src/vidore_benchmark/retrievers/README.md
Resultados
A continuación se muestran algunos resultados de modelos de recuperación visual en ViDoRe Benchmark 2:

Notas sobre el benchmark:
Adaptamos el procedimiento de evaluación para la API de voyageAI, lo que dio como resultado un rendimiento ligeramente inferior en el benchmark ViDoRe v1 en comparación con los valores comunicados por voyageAI. Es probable que esta discrepancia se deba a que hemos redimensionado las imágenes de entrada a una altura máxima de 1200 píxeles para facilitar una evaluación comparativa eficiente, un paso de preprocesamiento que presumiblemente no se aplicó en la configuración original del benchmark de voyageAI.
Perspectivas sobre los resultados
Conclusiones del benchmark ViDoRe v2:
-
-
- El benchmark ViDoRe v2 mantiene una fuerte correlación con el benchmark ViDoRe original, como lo demuestran las clasificaciones consistentes de los modelos en ambas versiones.
- ViDoRe v2 presenta un margen considerable para futuras mejoras, en contraste con ViDoRe v1, que se acercaba a la saturación del rendimiento (puntuaciones superiores al 90 %).
- Algunos modelos muestran signos de sobreajuste a la distribución de entrenamiento, lo que da lugar a una menor generalización a datos nuevos (por ejemplo, vidore/colSmol-256M, vidore/colSmol-500M, Metric-AI/ColQwen2.5-3b-multilingual-v1.0) parecen funcionar peor en la V2 que lo que indicaba su rendimiento en la V1).
- Las divisiones multilingües en ViDoRe v2 proporcionan una evaluación más precisa de las capacidades multilingües en los modelos de recuperación visual. Observamos una diferencia significativa en el rendimiento entre los modelos entrenados exclusivamente en inglés utilizando un VLM solo en inglés y los que no lo están.
- Una escala de modelo más grande es beneficiosa; en particular, el modelo gme-qwen7B alcanza un buen rendimiento general, pero conlleva un coste computacional y una latencia de inferencia significativos. Por el contrario, aunque impresionantes por su tamaño, los modelos con menos de 1000 millones de parámetros tienden a quedarse atrás, especialmente en distribuciones de datos nunca vistas anteriormente.
- Los mejores modelos hasta ahora parecen estar basados en Qwen2.5, sin embargo, este modelo no tiene una licencia totalmente abierta.
-

-
-
- Tendemos a observar una mejor separación entre los resultados de los modelos con el conjunto de datos etiquetados por humanos (esg_human), lo que indica que es de una calidad ligeramente superior a la de los conjuntos de datos sintéticos y que es una señal más discriminatoria.
-


Nuestro objetivo es que ViDoRe V2 se convierta en un «referente vivo» dinámico que crezca regularmente con nuevas tareas y conjuntos de datos. Para lograrlo, invitamos y animamos a la comunidad a contribuir con conjuntos de datos y tareas de evaluación. Este enfoque colaborativo ayuda a garantizar que el referente siga siendo relevante, útil y refleje los retos del mundo real.
Agradecimientos
Los profesionales interesados en debates y proyectos más profundos sobre Visual RAG, ColPali o sistemas agenciales, no duden en ponerse en contacto con contact@illuin.tech y ponerse en contacto con nuestro equipo de expertos de ILLUIN, que pueden ayudarle a acelerar sus esfuerzos en materia de IA.
¡Esperamos sus comentarios y contribuciones! Si tiene algún conjunto de documentos y consultas asociadas que le parezcan interesantes o desafiantes para una tarea de recuperación, ¡no dude en enviarnos un correo electrónico!











