ColPali: un nuevo enfoque innovador para el RAG

ILLUIN Technology y CentraleSupélec se enorgullecen de presentar un nuevo enfoque innovador en el campo de la generación aumentada por recuperación (RAG) aplicada a corpus documentales complejos con ColPali: Efficient Document Retrieval with Vision Language Models.

 

Buscar información en documentos complejos

Ante la dificultad de buscar información de manera eficaz en documentos complejos, que a menudo incluyen imágenes, tablas y diagramas, hemos trabajado para desarrollar una solución innovadora. Este nuevo enfoque se integra en nuestros productos (ILLUIN Search e ILLUIN Dialogue), así como en los proyectos de GenAI a medida que llevamos a cabo.

Los procesos tradicionales de indexación documental se desarrollan en dos etapas principales:

  1. 🔄 Uso de numerosos modelos de visión artificial para comprender la estructura del documento y extraer el texto.
  2. 🗂️ Indexación del texto utilizando representaciones textuales para una etapa posterior de recuperación (retrieving).

Sin embargo, este método tiene algunas limitaciones: lentitud, propagación de errores y una comprensión limitada de los elementos visuales de un documento. Para solucionar estos inconvenientes, hemos desarrollado una representación del documento más adecuada.

 

Las principales contribuciones de este avance

En esta publicación se presentan dos contribuciones principales:

  1. 📚 El benchmark ViDoRe (Visual Document Retrieval): el primer benchmark de código abierto que evalúa la calidad de los recuperadores en la búsqueda de información visualmente rica en documentos complejos.
  2. 🤖 El modelo ColPali: un enfoque innovador basado en el modelo VLM PaliGemma de Google, que crea una representación multivectorial del documento. Este modelo utiliza el mecanismo de «interacción tardía» de Colbert para una coincidencia precisa y eficaz de los tokens de la consulta con los parches del documento durante la inferencia.

 

Resultados prometedores

ColPali destaca por su rendimiento y rapidez superiores a otros métodos, incluidos los basados en el subtitulado de imágenes con el modelo Claude Sonnet de Anthropic. Este avance demuestra el potencial de los modelos de lenguaje visual (VLM) para la recuperación de documentos. 📈

Para obtener más información, consulte la publicación completa en arxiv.org y descubra más en:

 

Agradecimientos

Enhorabuena a todos los colaboradores: Manuel Faysse, Hugues Sibille, Tony Wu, Bilel Omrani, Celine Hudelot, Pierre Colombo, así como al equipo del CINES por los recursos de cálculo en ADASTRA. 👏
CC: Robert VESOUL, Wacim Belblidia, Paul-Henry Cournède, Renaud Monnet

 

 

Artículos similares

¡Solicite más información sobre ILLUIN Technology y nuestras ofertas!