IntroducciĂłn
Nos complace presentar CroissantLLM, un modelo lingĂŒĂstico pequeño pero potente, con 1300 millones de parĂĄmetros, entrenado con 3 billones de tokens, totalmente abierto y verdaderamente bilingĂŒe. El objetivo es ofrecer a la comunidad investigadora e industrial un modelo bilingĂŒe de alto rendimiento y totalmente abierto que funcione rĂĄpidamente en hardware local de consumo. Nuestro enfoque se basa en la transparencia y, junto con el modelo y varios puntos de control, publicamos nuevos conjuntos de datos franceses de alta calidad procedentes de datos jurĂdicos, administrativos, culturales, empresariales, cientĂficos y de traducciĂłn, asĂ como FrenchBench, un novedoso punto de referencia para evaluar el rendimiento de LLM en francĂ©s. 
Los datos
Los modelos mĂĄs recientes se han entrenado principalmente con corpus en inglĂ©s, lo que ha provocado una disminuciĂłn del rendimiento en otros idiomas y un sesgo cultural centrado en el inglĂ©s. Con CroissantLLM, nuestro objetivo es entrenar un modelo en el que el inglĂ©s no sea el idioma dominante y lograr una proporciĂłn de 1:1 entre los datos en inglĂ©s y en francĂ©s. Uno de los retos fue recopilar cantidades suficientes de datos de alta calidad en francĂ©s. Recopilamos, filtramos y limpiamos datos de mĂșltiples fuentes variadas, con el fin de abarcar diversos ĂĄmbitos (jurĂdico, administrativo, cultural, cientĂfico, etc.) o cubrir diferentes modalidades de texto (transcripciones de discursos, subtĂtulos de pelĂculas, enciclopedias, foros, pĂĄginas web)... Todos los datos recopilados se enumeran explĂcitamente en el informe tĂ©cnico, estĂĄn sujetos a licencias permisivas y se comparten con el resto de los artefactos del proyecto.
 En total, recopilamos mĂĄs de 303 000 millones de tokens de datos monolingĂŒes en francĂ©s (1,3 terabytes), asĂ como 36 000 millones de tokens de datos de traducciĂłn de alta calidad del francĂ©s al inglĂ©s, y los agregamos a los datos en inglĂ©s y cĂłdigo. Elaboramos nuestro conjunto de datos final de 3 billones de tokens de manera que obtenemos cantidades iguales de datos en francĂ©s e inglĂ©s despuĂ©s del sobremuestreo. A modo de referencia, ÂĄentrenar un LLM con 3 billones de tokens es algo enorme! Es mayor que el nĂșmero de tokens que se ven durante el entrenamiento de los modelos Llama2 y casi 10 veces mĂĄs que lo que se hace en los modelos Bloom, lo que convierte a CroissantLLM en el modelo que mĂĄs datos en francĂ©s ha entrenado hasta la fecha.
El modelo
CroissantLLM es un modelo de 1300 millones de parĂĄmetros, con una arquitectura de modelo Llama. La elecciĂłn de este tamaño de modelo se debe a la constataciĂłn de que el mayor obstĂĄculo para la adopciĂłn generalizada de los modelos es la dificultad de hacer que funcionen rĂĄpidamente en hardware de consumo. De hecho, si nos fijamos en las descargas de HuggingFace, los modelos mĂĄs descargados no son los que mejor rendimiento tienen (Llama2-70B, Mixtral 8x7B), sino los mĂĄs pequeños (Llama2-7B, Mistral 7B), que son mĂĄs fĂĄciles y baratos de servir y ajustar. Con un tamaño de modelo de 1300 millones, CroissantLLM es capaz de ejecutarse con extrema rapidez en servidores GPU de gama baja, lo que permite un alto rendimiento y una baja latencia, pero tambiĂ©n puede ejecutarse en CPU o incluso en dispositivos mĂłviles con velocidades decentes. La contrapartida es, obviamente, que CroissantLLM no va a mostrar las mismas capacidades generalistas en razonamiento, matemĂĄticas y codificaciĂłn que los modelos mĂĄs grandes, pero serĂĄ perfecto para aplicaciones industriales mĂĄs especĂficas, traducciones o incluso capacidades de chat en las que no siempre se requieren los grandes modelos. 
El punto de referencia
Para evaluar el rendimiento del modelo mĂĄs allĂĄ del inglĂ©s, el equipo presenta FrenchBench, un novedoso punto de referencia que abarca diversas tareas de clasificaciĂłn y generaciĂłn para evaluar el rendimiento del LLM en francĂ©s. FrenchBench Gen incluye tareas como la generaciĂłn de tĂtulos, la sĂntesis, la generaciĂłn de preguntas y la respuesta a preguntas, basĂĄndose en el conjunto de datos de alta calidad French Question Answering, FQuaD. La secciĂłn de opciĂłn mĂșltiple de FrenchBench se centra en el razonamiento, el conocimiento factual y las capacidades lingĂŒĂsticas.

Resultados de French-Bench Gen (5 disparos)

Resultados de la prueba de opciĂłn mĂșltiple French-Bench (5 intentos)
CroissantLLM es el modelo con mejor rendimiento de su tamaño en francĂ©s, superando a modelos hasta tres veces mĂĄs grandes en la mayorĂa de las tareas (Bloom 3B). TambiĂ©n evaluamos el modelo en pruebas de referencia en inglĂ©s y igualamos o superamos a los mejores modelos de su tamaño.
Puntos de referencia en inglés (5 disparos)
Las aplicaciones
Por el momento, solo hemos hablado del modelo bĂĄsico. Sin embargo, ahora se sabe que los modelos bĂĄsicos son solo la base de la mayorĂa de los sistemas LLM modernos y que, para obtener el mejor rendimiento, es importante llevar a cabo una segunda fase de entrenamiento denominada «ajuste supervisado». Ajustamos CroissantLLM con datos de Chat, incluyendo algunas interacciones de ChatGPT, y evaluamos las capacidades de CroissantLLMChat en diversas tareas en francĂ©s e inglĂ©s, como MT-Bench, traducciĂłn, trivialidades francesas...
MT-Bench Rendimiento en inglés y francés
MT-Bench tiene como objetivo evaluar las capacidades de los LLM en ocho ĂĄmbitos. CroissantLLMChat muestra un buen rendimiento en tareas de comprensiĂłn del francĂ©s, como la escritura y los juegos de rol, superando a modelos del mismo tamaño. TambiĂ©n muestra buenos conocimientos generales en STEM y humanidades. Una de las cuestiones que este trabajo intenta abordar es si el entrenamiento con datos bilingĂŒes va mĂĄs allĂĄ de aumentar la comprensiĂłn del lenguaje y las capacidades de escritura de un modelo en otro idioma, y si tambiĂ©n dota a los modelos de conocimientos novedosos y diferentes sesgos culturales. Evaluamos los conocimientos culturales franceses en una tarea de trivial, que consiste en preguntas sobre temas relacionados con Francia, formuladas en inglĂ©s. Los resultados en FrenchTrivia muestran que el preentrenamiento con un corpus muy grande induce capacidades de conocimiento significativamente mayores.
Resultados de la trivia en francés
Las ventajas de entrenar con datos en francés e inglés en una proporción de 1:1 y con datos paralelos también se pueden apreciar en las tareas de traducción. De hecho, CroissantLLM supera a modelos grandes como Llama y Mistral 7B en entornos de pocos ejemplos, y estå a la altura del modelo de traducción especializado mås avanzado del mismo tamaño, NLLB 1.3B, al tiempo que conserva sus capacidades generales de chat.
Resultados de la traducciĂłn
La transparencia
Los modelos de Ășltima generaciĂłn, tanto propios como de cĂłdigo abierto, suelen ser diseñados y entrenados por empresas con un fuerte respaldo inversor, que pretenden mantener su ventaja competitiva manteniendo en secreto su combinaciĂłn de datos de entrenamiento y su estrategia, lo que dificulta al resto del sector la capacidad de estudiar y comprender plenamente estos modelos. AdemĂĄs, existen debates en curso sobre quiĂ©n es el propietario real de los datos utilizados para entrenar estos modelos lingĂŒĂsticos, con implicaciones legales cada vez mĂĄs importantes. Los recientes debates polĂticos, como la Ley de IA de la UE y las audiencias del Senado de EE. UU., ponen de relieve la creciente necesidad de transparencia en el desarrollo de la IA para garantizar el cumplimiento de la legislaciĂłn y generar confianza entre los usuarios. La iniciativa CroissantLLM se diseñó desde el principio teniendo en cuenta la transparencia. Validamos el 81 % de los criterios de transparencia de la FMTI marco, mucho mĂĄs allĂĄ de las puntuaciones de incluso las iniciativas mĂĄs abiertas, al publicar los datos, los modelos, el procedimiento de formaciĂłn y todo el cĂłdigo utilizado para curar los datos y entrenar el modelo. 
La ciencia
MĂĄs que un modelo funcional, CroissantLLM y los artefactos asociados tambiĂ©n pretenden servir de apoyo para fomentar nuevas investigaciones sobre modelos lingĂŒĂsticos multilingĂŒes, comprender el impacto de los datos de preentrenamiento en el conocimiento interno y la dinĂĄmica de los modelos entrenados mucho mĂĄs allĂĄ del umbral Ăłptimo de Chinchilla. Esto darĂĄ lugar a nuevas publicaciones sobre la memorizaciĂłn de modelos y la capacidad de divisiĂłn de los modelos lingĂŒĂsticos bilingĂŒes.
Enlaces
Los modelos, conjuntos de datos, cĂłdigo de entrenamiento, puntos de referencia de evaluaciĂłn y datos son totalmente de cĂłdigo abierto.
CroissantLLM también funciona en dispositivos móviles de gama baja, ¥y pronto lanzaremos el APK! 
Agradecimientos
Este trabajo es una colaboraciĂłn entre socios acadĂ©micos e industriales. En el ĂĄmbito acadĂ©mico, los autores principales estĂĄn afiliados a CentraleSupĂ©lec (UniversitĂ© Paris Saclay) y al Instituto Superior TĂ©cnico de Lisboa, y otros colaboradores estĂĄn vinculados a la Universidad de la Sorbona y al Imperial College de Londres. En el ĂĄmbito industrial, los autores principales reciben financiaciĂłn de Illuin Technology (ParĂs), Unbabel (Lisboa) y Equall (Nueva York, Lisboa, ParĂs), respectivamente. La computaciĂłn para el entrenamiento se obtiene principalmente en el superordenador Jean Zay, operado por GENCI IDRIS a travĂ©s de la subvenciĂłn de computaciĂłn 2023-AD011014668R1.










