[confeti]

đŸ„ CroissantLLM: un modelo lingĂŒĂ­stico verdaderamente bilingĂŒe francĂ©s-inglĂ©s

IntroducciĂłn

Nos complace presentar CroissantLLM, un modelo lingĂŒĂ­stico pequeño pero potente, con 1300 millones de parĂĄmetros, entrenado con 3 billones de tokens, totalmente abierto y verdaderamente bilingĂŒe. El objetivo es ofrecer a la comunidad investigadora e industrial un modelo bilingĂŒe de alto rendimiento y totalmente abierto que funcione rĂĄpidamente en hardware local de consumo. Nuestro enfoque se basa en la transparencia y, junto con el modelo y varios puntos de control, publicamos nuevos conjuntos de datos franceses de alta calidad procedentes de datos jurĂ­dicos, administrativos, culturales, empresariales, cientĂ­ficos y de traducciĂłn, asĂ­ como FrenchBench, un novedoso punto de referencia para evaluar el rendimiento de LLM en francĂ©s.

Los datos

Los modelos mĂĄs recientes se han entrenado principalmente con corpus en inglĂ©s, lo que ha provocado una disminuciĂłn del rendimiento en otros idiomas y un sesgo cultural centrado en el inglĂ©s. Con CroissantLLM, nuestro objetivo es entrenar un modelo en el que el inglĂ©s no sea el idioma dominante y lograr una proporciĂłn de 1:1 entre los datos en inglĂ©s y en francĂ©s. Uno de los retos fue recopilar cantidades suficientes de datos de alta calidad en francĂ©s. Recopilamos, filtramos y limpiamos datos de mĂșltiples fuentes variadas, con el fin de abarcar diversos ĂĄmbitos (jurĂ­dico, administrativo, cultural, cientĂ­fico, etc.) o cubrir diferentes modalidades de texto (transcripciones de discursos, subtĂ­tulos de pelĂ­culas, enciclopedias, foros, pĂĄginas web)... Todos los datos recopilados se enumeran explĂ­citamente en el informe tĂ©cnico, estĂĄn sujetos a licencias permisivas y se comparten con el resto de los artefactos del proyecto.   En total, recopilamos mĂĄs de 303 000 millones de tokens de datos monolingĂŒes en francĂ©s (1,3 terabytes), asĂ­ como 36 000 millones de tokens de datos de traducciĂłn de alta calidad del francĂ©s al inglĂ©s, y los agregamos a los datos en inglĂ©s y cĂłdigo. Elaboramos nuestro conjunto de datos final de 3 billones de tokens de manera que obtenemos cantidades iguales de datos en francĂ©s e inglĂ©s despuĂ©s del sobremuestreo. A modo de referencia, ÂĄentrenar un LLM con 3 billones de tokens es algo enorme! Es mayor que el nĂșmero de tokens que se ven durante el entrenamiento de los modelos Llama2 y casi 10 veces mĂĄs que lo que se hace en los modelos Bloom, lo que convierte a CroissantLLM en el modelo que mĂĄs datos en francĂ©s ha entrenado hasta la fecha.

El modelo

CroissantLLM es un modelo de 1300 millones de paråmetros, con una arquitectura de modelo Llama. La elección de este tamaño de modelo se debe a la constatación de que el mayor obståculo para la adopción generalizada de los modelos es la dificultad de hacer que funcionen råpidamente en hardware de consumo. De hecho, si nos fijamos en las descargas de HuggingFace, los modelos mås descargados no son los que mejor rendimiento tienen (Llama2-70B, Mixtral 8x7B), sino los mås pequeños (Llama2-7B, Mistral 7B), que son mås fåciles y baratos de servir y ajustar. Con un tamaño de modelo de 1300 millones, CroissantLLM es capaz de ejecutarse con extrema rapidez en servidores GPU de gama baja, lo que permite un alto rendimiento y una baja latencia, pero también puede ejecutarse en CPU o incluso en dispositivos móviles con velocidades decentes. La contrapartida es, obviamente, que CroissantLLM no va a mostrar las mismas capacidades generalistas en razonamiento, matemåticas y codificación que los modelos mås grandes, pero serå perfecto para aplicaciones industriales mås específicas, traducciones o incluso capacidades de chat en las que no siempre se requieren los grandes modelos.

El punto de referencia

Para evaluar el rendimiento del modelo mĂĄs allĂĄ del inglĂ©s, el equipo presenta FrenchBench, un novedoso punto de referencia que abarca diversas tareas de clasificaciĂłn y generaciĂłn para evaluar el rendimiento del LLM en francĂ©s. FrenchBench Gen incluye tareas como la generaciĂłn de tĂ­tulos, la sĂ­ntesis, la generaciĂłn de preguntas y la respuesta a preguntas, basĂĄndose en el conjunto de datos de alta calidad French Question Answering, FQuaD. La secciĂłn de opciĂłn mĂșltiple de FrenchBench se centra en el razonamiento, el conocimiento factual y las capacidades lingĂŒĂ­sticas.

Resultados de French-Bench Gen (5 disparos)

Resultados de la prueba de opciĂłn mĂșltiple French-Bench (5 intentos)

CroissantLLM es el modelo con mejor rendimiento de su tamaño en francés, superando a modelos hasta tres veces mås grandes en la mayoría de las tareas (Bloom 3B). También evaluamos el modelo en pruebas de referencia en inglés y igualamos o superamos a los mejores modelos de su tamaño.

Puntos de referencia en inglés (5 disparos)

 

Las aplicaciones

Por el momento, solo hemos hablado del modelo båsico. Sin embargo, ahora se sabe que los modelos båsicos son solo la base de la mayoría de los sistemas LLM modernos y que, para obtener el mejor rendimiento, es importante llevar a cabo una segunda fase de entrenamiento denominada «ajuste supervisado». Ajustamos CroissantLLM con datos de Chat, incluyendo algunas interacciones de ChatGPT, y evaluamos las capacidades de CroissantLLMChat en diversas tareas en francés e inglés, como MT-Bench, traducción, trivialidades francesas...

MT-Bench Rendimiento en inglés y francés

MT-Bench tiene como objetivo evaluar las capacidades de los LLM en ocho ĂĄmbitos. CroissantLLMChat muestra un buen rendimiento en tareas de comprensiĂłn del francĂ©s, como la escritura y los juegos de rol, superando a modelos del mismo tamaño. TambiĂ©n muestra buenos conocimientos generales en STEM y humanidades. Una de las cuestiones que este trabajo intenta abordar es si el entrenamiento con datos bilingĂŒes va mĂĄs allĂĄ de aumentar la comprensiĂłn del lenguaje y las capacidades de escritura de un modelo en otro idioma, y si tambiĂ©n dota a los modelos de conocimientos novedosos y diferentes sesgos culturales. Evaluamos los conocimientos culturales franceses en una tarea de trivial, que consiste en preguntas sobre temas relacionados con Francia, formuladas en inglĂ©s. Los resultados en FrenchTrivia muestran que el preentrenamiento con un corpus muy grande induce capacidades de conocimiento significativamente mayores.

Resultados de la trivia en francés

Las ventajas de entrenar con datos en francés e inglés en una proporción de 1:1 y con datos paralelos también se pueden apreciar en las tareas de traducción. De hecho, CroissantLLM supera a modelos grandes como Llama y Mistral 7B en entornos de pocos ejemplos, y estå a la altura del modelo de traducción especializado mås avanzado del mismo tamaño, NLLB 1.3B, al tiempo que conserva sus capacidades generales de chat.

Resultados de la traducciĂłn

 

La transparencia

Los modelos de Ășltima generaciĂłn, tanto propios como de cĂłdigo abierto, suelen ser diseñados y entrenados por empresas con un fuerte respaldo inversor, que pretenden mantener su ventaja competitiva manteniendo en secreto su combinaciĂłn de datos de entrenamiento y su estrategia, lo que dificulta al resto del sector la capacidad de estudiar y comprender plenamente estos modelos. AdemĂĄs, existen debates en curso sobre quiĂ©n es el propietario real de los datos utilizados para entrenar estos modelos lingĂŒĂ­sticos, con implicaciones legales cada vez mĂĄs importantes. Los recientes debates polĂ­ticos, como la Ley de IA de la UE y las audiencias del Senado de EE. UU., ponen de relieve la creciente necesidad de transparencia en el desarrollo de la IA para garantizar el cumplimiento de la legislaciĂłn y generar confianza entre los usuarios. La iniciativa CroissantLLM se diseñó desde el principio teniendo en cuenta la transparencia. Validamos el 81 % de los criterios de transparencia de la FMTI marco, mucho mĂĄs allĂĄ de las puntuaciones de incluso las iniciativas mĂĄs abiertas, al publicar los datos, los modelos, el procedimiento de formaciĂłn y todo el cĂłdigo utilizado para curar los datos y entrenar el modelo.

La ciencia

MĂĄs que un modelo funcional, CroissantLLM y los artefactos asociados tambiĂ©n pretenden servir de apoyo para fomentar nuevas investigaciones sobre modelos lingĂŒĂ­sticos multilingĂŒes, comprender el impacto de los datos de preentrenamiento en el conocimiento interno y la dinĂĄmica de los modelos entrenados mucho mĂĄs allĂĄ del umbral Ăłptimo de Chinchilla. Esto darĂĄ lugar a nuevas publicaciones sobre la memorizaciĂłn de modelos y la capacidad de divisiĂłn de los modelos lingĂŒĂ­sticos bilingĂŒes.

Enlaces

Los modelos, conjuntos de datos, cĂłdigo de entrenamiento, puntos de referencia de evaluaciĂłn y datos son totalmente de cĂłdigo abierto.

CroissantLLM también funciona en dispositivos móviles de gama baja, ¥y pronto lanzaremos el APK!

Agradecimientos

Este trabajo es una colaboración entre socios académicos e industriales. En el åmbito académico, los autores principales estån afiliados a CentraleSupélec (Université Paris Saclay) y al Instituto Superior Técnico de Lisboa, y otros colaboradores estån vinculados a la Universidad de la Sorbona y al Imperial College de Londres. En el åmbito industrial, los autores principales reciben financiación de Illuin Technology (París), Unbabel (Lisboa) y Equall (Nueva York, Lisboa, París), respectivamente. La computación para el entrenamiento se obtiene principalmente en el superordenador Jean Zay, operado por GENCI IDRIS a través de la subvención de computación 2023-AD011014668R1.

ArtĂ­culos similares

ÂĄSolicite mĂĄs informaciĂłn sobre ILLUIN Technology y nuestras ofertas!