ViDoRe V3: Una evaluación exhaustiva de la recuperación para casos de uso empresarial
TL;DR
ILLUIN Technology se enorgullece de presentar el ViDoRe V3 , diseñado y desarrollado con la colaboración de NVIDIA. ViDoRe V3 es nuestro último benchmark, diseñado para establecer un nuevo estándar de referencia en el sector para la evaluación de la recuperación de documentos empresariales multimodales. Aborda un reto crítico en los sistemas RAG de producción: la recuperación de información precisa a partir de documentos complejos y con gran cantidad de elementos visuales.
ViDoRe V3 mejora los benchmarks RAG existentes al priorizar la relevancia empresarial y la rigurosa calidad de los datos. En lugar de basarse en textos académicos limpios, el benchmark se nutre de 10 conjuntos de datos complejos y reales que abarcan diversos ámbitos industriales, de los cuales 8 se han publicado y 2 se mantienen privados. Además, mientras que los benchmarks anteriores suelen basarse en datos generados sintéticamente, ViDoRe V3 cuenta con anotaciones creadas y verificadas por humanos.
Este punto de referencia contiene 26 000 páginas y 3099 consultas traducidas a seis idiomas. Cada consulta está vinculada a datos de referencia creados y verificados por anotadores humanos: páginas relevantes, anotaciones precisas de cuadros delimitadores para elementos clave y una respuesta de referencia completa.

Por qué creamos ViDoRe V3
El panorama de la recuperación de documentos es cada vez más diverso. Las nuevas canalizaciones basadas en modelos de lenguaje visual están desafiando a los sistemas tradicionales basados en modelos de recuperación/generación de texto. Con ViDoRe V1 y V2, dimos los primeros pasos hacia una mejor evaluación de los recuperadores VLM:
- ViDoRe V1 se centró en consultas extractivas basadas en páginas únicas,
- ViDoRe V2 amplió el punto de referencia a consultas más abiertas.
Sin embargo, los corpus seguían siendo pequeños en comparación con los casos de uso del mundo real y ambos dependían en gran medida de la generación sintética. Aunque se trataba de pasos en la dirección correcta, los puntos de referencia anteriores seguían ofreciéndonos una imagen fragmentada. Los corpus debían ser más grandes y más representativos de los datos empresariales, las consultas más diversas, la evaluación de extremo a extremo era difícil y faltaba la verificación humana.
Hacia un diagnóstico más claro: abordar las limitaciones fundamentales de la recuperación
Para abordar las limitaciones de los puntos de referencia anteriores, nos centramos en tres pilares principales de mejora:
- Corpus relevantes para empresas: hemos recopilado 10 corpus diversos, cada uno centrado en un ámbito o tarea distintos y relevantes para las empresas. Para cada ámbito, hemos seleccionado más de 1000 páginas de documentos multimodales diversos con licencias permisivas que reflejan los retos y la complejidad de la recuperación de información en el mundo empresarial real. Se han publicado 8 conjuntos de datos y 2 son privados para evitar el sobreajuste.
- Verificación humana de las anotaciones: para cada consulta, proporcionamos clasificaciones de relevancia de páginas anotadas por humanos, cuadros delimitadores y respuestas escritas para permitir una recuperación exhaustiva y una evaluación RAG.
- Consultas diversas: para identificar sistemáticamente los modos de fallo, las consultas abarcan 7 tipos (por ejemplo, multisalto, numérico) y 3 formatos (pregunta, instrucción, palabra clave). Para evaluar las capacidades entre idiomas, todas las consultas se proporcionan en 6 idiomas: inglés, francés, español, alemán, italiano y portugués.
Conjuntos de datos públicos

Conjuntos de datos privados
Dos conjuntos de datos seguirán siendo privados y serán gestionados por el equipo MTEB (¡muchas gracias a ellos!) para garantizar la integridad de los parámetros de referencia y mitigar el sobreajuste. Este enfoque de evaluación debería proporcionar un método menos sesgado para evaluar los modelos de recuperación visual, lo que conduciría a una comprensión más representativa de sus verdaderas capacidades. Para evitar revelar demasiados detalles sobre estos conjuntos de datos, solo divulgamos el dominio y el idioma de los documentos.
Los dos conjuntos de datos privados abarcan:
- Documentos normativos relacionados con la energía (inglés)
- Documentos sobre normas técnicas relacionadas con las telecomunicaciones (inglés)
Categorías de consultas

Diseñamos las consultas ViDoRe V3 para reflejar la diversidad y complejidad de las tareas de recuperación en el mundo real. Cada consulta tiene el formato de una pregunta, instrucción o palabra clave y está etiquetada con uno o más de los siete tipos de consulta.

Para ilustrar qué combinaciones de tipos de consultas tienden a aparecer juntas y cuán comunes son cada una de ellas, visualizamos la distribución y la cardinalidad de todas las combinaciones. Las consultas de una sola categoría son las más comunes, pero muchas consultas combinan varios tipos, como las preguntas extractivas que requieren comparaciones numéricas.

Prestamos especial atención a garantizar que las consultas supongan un reto para los sistemas de recuperación actuales en todos los ámbitos. La mayoría de las consultas requieren información repartida en varias páginas, lo que obliga a los modelos a extraer y sintetizar el contenido de los documentos completos en lugar de basarse en coincidencias de una sola página.

Un proceso de generación híbrido: cómo crear un punto de referencia exigente

Para crear un punto de referencia sólido, difícil y de alta calidad, desarrollamos un sofisticado proceso híbrido que equilibra la experiencia humana con la escalabilidad impulsada por LLM. Nuestro objetivo era crear consultas realistas, por lo que comenzamos con un enfoque independiente de la página. De manera similar a ViDoRe V2, en lugar de utilizar una sola página, las consultas se generaron a partir de resúmenes de alto nivel de secciones de documentos. Esto evita que las tareas sean demasiado simples y garantiza que imiten la intención real de los usuarios. Esta generación se logró mediante canalizaciones sintéticas (incluido NVIDIA NeMo Data Designer con Qwen3-235B) para la escala y anotadores humanos expertos para los matices y la complejidad.
Con miles de consultas generadas para miles de páginas del corpus, encontrar las respuestas correctas requería un enorme esfuerzo de anotación. Implementamos un embudo de varias etapas para escalar este proceso. En primer lugar, un VLM (Qwen2.5-32B) realizó un filtro flexible de alta recuperación para descartar rápidamente las páginas claramente irrelevantes, lo que limitó los falsos negativos y centró el esfuerzo de los anotadores. Tras este filtrado previo, los anotadores humanos capacitados realizaron el trabajo crítico. Identificaron las páginas verdaderamente relevantes y generaron las anotaciones finales detalladas, incluyendo clasificaciones de relevancia a nivel de página, respuestas escritas precisas y cuadros delimitadores de la verdad fundamental.
Aunque la verdad fundamental perfecta es un objetivo difícil de alcanzar para cualquier conjunto de datos a esta escala, hemos invertido mucho en la aplicación de un marco de control de calidad de múltiples capas. Nuestros anotadores tenían un dominio del idioma a nivel nativo y todos superaron las pruebas de validación previas a la producción y las pruebas piloto. Las tareas clave fueron completadas por varios anotadores para garantizar el consenso, y los datos se sometieron a controles de calidad y auditorías por parte de anotadores senior con experiencia. Este enfoque por capas se diseñó para que la verdad fundamental y las tareas de referencia fueran lo más fiables y realistas posible.
Como paso final de control de calidad, filtramos rigurosamente las anotaciones. Esto implicó verificar el consenso de los anotadores, realizar una revisión manual y utilizar Qwen2.5-VL-32B para confirmar la presencia de información relevante en todas las páginas anotadas. A continuación, utilizamos Qwen2.5-VL-32B por última vez para fusionar los resultados restantes en una única respuesta definitiva.
Un punto de referencia difícil para los modelos actuales de recuperadores

Evaluamos una amplia gama de modelos modernos de recuperación visual en nuestro benchmark utilizando el marco MTEB. Los resultados confirman que el benchmark es excepcionalmente difícil para los métodos actuales.
Los modelos con mejor rendimiento alcanzan una puntuación del 65 % NDCG@10 en conjuntos de datos en inglés. Al introducir documentos multilingües y consultas traducidas, el rendimiento se degrada significativamente, y la puntuación media no alcanza el 60 % NDCG@10.
Un análisis más profundo de los resultados revela varios patrones clave:
- Retos con documentos técnicos: Los modelos tienen grandes dificultades cuando se enfrentan a los documentos altamente técnicos de nuestro subconjunto Industrial y nuestro conjunto privado Energy-EN, especialmente a la hora de interpretar esquemas densos y gráficos complejos.
- Persisten los retos multilingües: el rendimiento disminuye considerablemente en nuestros documentos en francés. Para las divisiones de Física y Finanzas-FR, ningún modelo fue capaz de alcanzar el 50 % de NDCG@10.
- Fortaleza relativa en informática: los modelos demuestran un mayor rendimiento en la división de informática. Nuestra hipótesis es que se trata de un efecto secundario derivado de la enorme cantidad de datos de codificación utilizados para entrenar los VLM modernos, lo que les permite tener un mayor conocimiento sobre ese ámbito.
Los resultados completos y detallados de la evaluación y un análisis más profundo de la dificultad del conjunto de datos están disponibles a continuación. Todas las métricas indicadas, salvo que se especifique lo contrario, son NDCG@10.
Resultados de la evaluación en inglés

Resultados multilingües

Análisis de la dificultad del tipo de consulta
Desglosamos la distribución de puntuaciones por tipo de consulta y tarea para nemo-retriever-colembed-3b. El rendimiento del modelo se ajusta bien a la dificultad esperada de cada tipo de consulta: las consultas abiertas (NDCG@10 = 0,438) y las consultas multisalto (0,515) son las más difíciles de recuperar, mientras que las extractivas (0,668) y las booleanas (0,657) son las más fáciles.

Consideraciones
Cobertura de documentos empresariales: uno de los principales retos a la hora de desarrollar este punto de referencia fue la disponibilidad limitada de documentos multimodales dentro del dominio. Aunque se realizó un esfuerzo significativo para recopilar documentos relevantes, es posible que los corpus no representen plenamente los datos empresariales privados en todos los contextos.
Cobertura lingüística: El punto de referencia se limita actualmente a documentos en francés e inglés. Aunque intentamos recopilar documentos relevantes en otros idiomas, las limitaciones de recursos impidieron una cobertura lingüística más amplia. Para mitigar esta limitación, las consultas se tradujeron a varios idiomas para permitir la evaluación de tareas multilingües.
Calidad de las anotaciones: Lograr una calidad perfecta en las anotaciones es todo un reto a esta escala y con la complejidad y el alcance de la tarea. Hemos implementado un marco de control de calidad de múltiples capas que incorpora tanto LLM/VLM avanzados como anotadores humanos sénior a lo largo de todo el proceso para validar la calidad y minimizar los errores de tipo 1/2. A pesar de este riguroso proceso de validación, es posible que sigan existiendo algunos errores de anotación en el benchmark.
Uso:
Evaluación
Aquí hay un script rápido sobre cómo evaluar colqwen2.5-v0.2 en el nuevo benchmark utilizando MTEB (por ahora, aún no fusionado en la rama principal):
import mteb
benchmark = mteb.get_benchmark("ViDoRe(v3)")
model = "vidore/colqwen2.5-v0.2"
results = mteb.evaluate(model=model, tasks=benchmark)
Visualización de muestra
Aquí hay un script sencillo para visualizar un par de preguntas y respuestas, con cuadros delimitadores trazados en las páginas pertinentes.
from datasets import load_dataset
dataset_name = "vidore/military_technical_reports"
dataset = {
"queries": load_dataset(dataset_name, data_dir="queries", split="test"),
"qrels": load_dataset(dataset_name, data_dir="qrels", split="test"),
"corpus": load_dataset(dataset_name, data_dir="corpus", split="test")
}
query_sample = dataset["queries"][8]
print('Query:', query_sample['query'])
print("Answer:", query_sample['answer'])
> Query: What type of airflow is required to maintain ultra-clean environments in aerospace operations?
> Answer: Laminar airflow is required to maintain ultra-clean environments in aerospace operations.
related_qrels = dataset["qrels"].filter(lambda x: x['query_id'] == query_sample['query_id'])
import matplotlib.pyplot as plt
import matplotlib.patches as patches
def plot_bbox(image, bboxes):
_, ax = plt.subplots(figsize=(18, 12))
ax.imshow(image), ax.axis('off')
for bbox in bboxes:
rect = patches.Rectangle((bbox['x1'], bbox['y1']), bbox['x2'] - bbox['x1'], bbox['y2'] - bbox['y1'], linewidth=2, edgecolor='r', facecolor='none')
ax.add_patch(rect)
plt.show()
for qrel in related_qrels:
plot_bbox(dataset["corpus"][qrel['corpus_id']]['image'], qrel['bounding_boxes'])

Agradecimientos
Nuestro más sincero agradecimiento a Idris por brindarnos la oportunidad de realizar nuestros cálculos en el clúster Jeanzay (número de subvención AD011016393). Este proyecto no habría sido posible sin el compromiso de todos los involucrados, una deuda que tenemos con todos nuestros anotadores y colegas.
Gracias también al equipo del MTEB por haber colaborado con los conjuntos de datos privados.
Por último, gracias a todos los miembros de NVIDIA que han contribuido al diseño y desarrollo de este benchmark: Tom Balough, Gabriel Moreira, Bo Liu, Eric Tramel, Mengyao Xu, Radek Osmulski, Erin Potter y Hannah Brandon por su inestimable ayuda y asesoramiento.
Enlaces
- Colección de conjuntos de datos: Enlace a la colección
- HF Org 🤗: https://huggingface.co/vidore
- Papel 📄: Próximamente
- Código base 💻: Próximamente











