Volver

[confeti]

🥐 CroissantLLM: un modelo lingüístico verdaderamente bilingüe francés-inglés

Introducción

Nos complace presentar CroissantLLM, un modelo lingüístico pequeño pero potente, con 1300 millones de parámetros, entrenado con 3 billones de tokens, totalmente abierto y verdaderamente bilingüe. El objetivo es ofrecer a la comunidad investigadora e industrial un modelo bilingüe de alto rendimiento y totalmente abierto que funcione rápidamente en hardware local de consumo. Nuestro enfoque se basa en la transparencia y, junto con el modelo y varios puntos de control, publicamos nuevos conjuntos de datos franceses de alta calidad procedentes de datos jurídicos, administrativos, culturales, empresariales, científicos y de traducción, así como FrenchBench, un novedoso punto de referencia para evaluar el rendimiento de LLM en francés.

Los datos

Los modelos más recientes se han entrenado principalmente con corpus en inglés, lo que ha provocado una disminución del rendimiento en otros idiomas y un sesgo cultural centrado en el inglés. Con CroissantLLM, nuestro objetivo es entrenar un modelo en el que el inglés no sea el idioma dominante y lograr una proporción de 1:1 entre los datos en inglés y en francés. Uno de los retos fue recopilar cantidades suficientes de datos de alta calidad en francés. Recopilamos, filtramos y limpiamos datos de múltiples fuentes variadas, con el fin de abarcar diversos ámbitos (jurídico, administrativo, cultural, científico, etc.) o cubrir diferentes modalidades de texto (transcripciones de discursos, subtítulos de películas, enciclopedias, foros, páginas web)... Todos los datos recopilados se enumeran explícitamente en el informe técnico, están sujetos a licencias permisivas y se comparten con el resto de los artefactos del proyecto. En total, recopilamos más de 303 000 millones de tokens de datos monolingües en francés (1,3 terabytes), así como 36 000 millones de tokens de datos de traducción de alta calidad del francés al inglés, y los agregamos a los datos en inglés y código. Elaboramos nuestro conjunto de datos final de 3 billones de tokens de manera que obtenemos cantidades iguales de datos en francés e inglés después del sobremuestreo. A modo de referencia, ¡entrenar un LLM con 3 billones de tokens es algo enorme! Es mayor que el número de tokens que se ven durante el entrenamiento de los modelos Llama2 y casi 10 veces más que lo que se hace en los modelos Bloom, lo que convierte a CroissantLLM en el modelo que más datos en francés ha entrenado hasta la fecha.

El modelo

CroissantLLM es un modelo de 1300 millones de parámetros, con una arquitectura de modelo Llama. La elección de este tamaño de modelo se debe a la constatación de que el mayor obstáculo para la adopción generalizada de los modelos es la dificultad de hacer que funcionen rápidamente en hardware de consumo. De hecho, si nos fijamos en las descargas de HuggingFace, los modelos más descargados no son los que mejor rendimiento tienen (Llama2-70B, Mixtral 8x7B), sino los más pequeños (Llama2-7B, Mistral 7B), que son más fáciles y baratos de servir y ajustar. Con un tamaño de modelo de 1300 millones, CroissantLLM es capaz de ejecutarse con extrema rapidez en servidores GPU de gama baja, lo que permite un alto rendimiento y una baja latencia, pero también puede ejecutarse en CPU o incluso en dispositivos móviles con velocidades decentes. La contrapartida es, obviamente, que CroissantLLM no va a mostrar las mismas capacidades generalistas en razonamiento, matemáticas y codificación que los modelos más grandes, pero será perfecto para aplicaciones industriales más específicas, traducciones o incluso capacidades de chat en las que no siempre se requieren los grandes modelos.

El punto de referencia

Para evaluar el rendimiento del modelo más allá del inglés, el equipo presenta FrenchBench, un novedoso punto de referencia que abarca diversas tareas de clasificación y generación para evaluar el rendimiento del LLM en francés. FrenchBench Gen incluye tareas como la generación de títulos, la síntesis, la generación de preguntas y la respuesta a preguntas, basándose en el conjunto de datos de alta calidad French Question Answering, FQuaD. La sección de opción múltiple de FrenchBench se centra en el razonamiento, el conocimiento factual y las capacidades lingüísticas.

Resultados de French-Bench Gen (5 disparos)

Resultados de la prueba de opción múltiple French-Bench (5 intentos)

CroissantLLM es el modelo con mejor rendimiento de su tamaño en francés, superando a modelos hasta tres veces más grandes en la mayoría de las tareas (Bloom 3B). También evaluamos el modelo en pruebas de referencia en inglés y igualamos o superamos a los mejores modelos de su tamaño.

Puntos de referencia en inglés (5 disparos)

Las aplicaciones

Por el momento, solo hemos hablado del modelo básico. Sin embargo, ahora se sabe que los modelos básicos son solo la base de la mayoría de los sistemas LLM modernos y que, para obtener el mejor rendimiento, es importante llevar a cabo una segunda fase de entrenamiento denominada «ajuste supervisado». Ajustamos CroissantLLM con datos de Chat, incluyendo algunas interacciones de ChatGPT, y evaluamos las capacidades de CroissantLLMChat en diversas tareas en francés e inglés, como MT-Bench, traducción, trivialidades francesas...

MT-Bench Rendimiento en inglés y francés

MT-Bench tiene como objetivo evaluar las capacidades de los LLM en ocho ámbitos. CroissantLLMChat muestra un buen rendimiento en tareas de comprensión del francés, como la escritura y los juegos de rol, superando a modelos del mismo tamaño. También muestra buenos conocimientos generales en STEM y humanidades. Una de las cuestiones que este trabajo intenta abordar es si el entrenamiento con datos bilingües va más allá de aumentar la comprensión del lenguaje y las capacidades de escritura de un modelo en otro idioma, y si también dota a los modelos de conocimientos novedosos y diferentes sesgos culturales. Evaluamos los conocimientos culturales franceses en una tarea de trivial, que consiste en preguntas sobre temas relacionados con Francia, formuladas en inglés. Los resultados en FrenchTrivia muestran que el preentrenamiento con un corpus muy grande induce capacidades de conocimiento significativamente mayores.

Resultados de la trivia en francés

Las ventajas de entrenar con datos en francés e inglés en una proporción de 1:1 y con datos paralelos también se pueden apreciar en las tareas de traducción. De hecho, CroissantLLM supera a modelos grandes como Llama y Mistral 7B en entornos de pocos ejemplos, y está a la altura del modelo de traducción especializado más avanzado del mismo tamaño, NLLB 1.3B, al tiempo que conserva sus capacidades generales de chat.

Resultados de la traducción

La transparencia

Los modelos de última generación, tanto propios como de código abierto, suelen ser diseñados y entrenados por empresas con un fuerte respaldo inversor, que pretenden mantener su ventaja competitiva manteniendo en secreto su combinación de datos de entrenamiento y su estrategia, lo que dificulta al resto del sector la capacidad de estudiar y comprender plenamente estos modelos. Además, existen debates en curso sobre quién es el propietario real de los datos utilizados para entrenar estos modelos lingüísticos, con implicaciones legales cada vez más importantes. Los recientes debates políticos, como la Ley de IA de la UE y las audiencias del Senado de EE. UU., ponen de relieve la creciente necesidad de transparencia en el desarrollo de la IA para garantizar el cumplimiento de la legislación y generar confianza entre los usuarios. La iniciativa CroissantLLM se diseñó desde el principio teniendo en cuenta la transparencia. Validamos el 81 % de los criterios de transparencia de la FMTI marco, mucho más allá de las puntuaciones de incluso las iniciativas más abiertas, al publicar los datos, los modelos, el procedimiento de formación y todo el código utilizado para curar los datos y entrenar el modelo.

La ciencia

Más que un modelo funcional, CroissantLLM y los artefactos asociados también pretenden servir de apoyo para fomentar nuevas investigaciones sobre modelos lingüísticos multilingües, comprender el impacto de los datos de preentrenamiento en el conocimiento interno y la dinámica de los modelos entrenados mucho más allá del umbral óptimo de Chinchilla. Esto dará lugar a nuevas publicaciones sobre la memorización de modelos y la capacidad de división de los modelos lingüísticos bilingües.

Enlaces

Los modelos, conjuntos de datos, código de entrenamiento, puntos de referencia de evaluación y datos son totalmente de código abierto.

CroissantLLM también funciona en dispositivos móviles de gama baja, ¡y pronto lanzaremos el APK!

Agradecimientos

Este trabajo es una colaboración entre socios académicos e industriales. En el ámbito académico, los autores principales están afiliados a CentraleSupélec (Université Paris Saclay) y al Instituto Superior Técnico de Lisboa, y otros colaboradores están vinculados a la Universidad de la Sorbona y al Imperial College de Londres. En el ámbito industrial, los autores principales reciben financiación de Illuin Technology (París), Unbabel (Lisboa) y Equall (Nueva York, Lisboa, París), respectivamente. La computación para el entrenamiento se obtiene principalmente en el superordenador Jean Zay, operado por GENCI IDRIS a través de la subvención de computación 2023-AD011014668R1.