Chez ILLUIN Technology, nous sommes ravis d’annoncer le lancement de CroissantLLM (1.3B), un modĂšle de langage (LLM) inĂ©dit, spĂ©cialement conçu pour rĂ©pondre aux besoins des entreprises francophones. Ce modĂšle, open-source, lĂ©ger et industrialisable, Ă©thique et transparent marque une avancĂ©e significative dans l’univers de l’intelligence artificielle.
Une collaboration fructueuse pour l’innovation
CroissantLLM est le fruit d’une Ă©troite collaboration entre les Ă©quipes d’ILLUIN Technology et le laboratoire MICS de CentraleSupĂ©lec. Cette synergie a permis de contribuer Ă l’Ă©tat de l’art et l’open-source francophone, Ă l’heure oĂč les entreprises de tous les secteurs ont besoin de solutions d’IA gĂ©nĂ©rative ouvertes et facilement manipulables au quotidien. “Ce nouveau modĂšle de langage rĂ©pond non seulement aux attentes industrielles, mais il est aussi alignĂ© avec nos valeurs d’ouverture, d’Ă©thique, et de transparence“.
Un modĂšle respectueux de l’environnement
Dans un contexte oĂč l’impact environnemental de la technologie devient une prĂ©occupation majeure, CroissantLLM se distingue par sa lĂ©gĂšretĂ©. Ce modĂšle peut ĂȘtre dĂ©ployĂ© sans l’utilisation de GPUs, gĂ©nĂ©ralement trĂšs gourmands en Ă©nergie. Cette caractĂ©ristique reflĂšte notre engagement envers une innovation technologique industrielle responsable, en phase avec les enjeux de sobriĂ©tĂ© Ă©nergĂ©tique. đż
Une innovation souveraine et éthique
CroissantLLM a Ă©tĂ© entraĂźnĂ© sur le calculateur Jean Zay, utilisant des donnĂ©es ouvertes et sourcĂ©es avec une transparence totale, en conformitĂ© avec les rĂ©gulations du AI Act. Ce modĂšle incarne ainsi une innovation souveraine, trtansparente, Ă©thique et responsable, un atout majeur pour les entreprises qui souhaitent intĂ©grer des solutions d’IA gĂ©nĂ©rative en toute confiance.
Détails techniques de CroissantLLM
Voici ce qui rend CroissantLLM particuliÚrement adapté au contexte industriel :
- đŻ 1.3 milliards de paramĂštres : Un “petit” modĂšle idĂ©al pour des applications industrielles.
- đ Multilingue : PrĂ©-entraĂźnĂ© sur un mĂ©lange de français, d’anglais, et de code.
- đ Performance : Le modĂšle francophone le plus performant pour sa taille, avec une performance Ă©quivalente Ă LLaMa-13B pour la traduction đ«đ· / đŹđ§.
- đ± FlexibilitĂ© : Fonctionne sur CPU et sur tĂ©lĂ©phone, ce qui permet une utilisation peu coĂ»teuse en production.
Contributions académiques et ressources disponibles
Nous sommes fiers de partager nos avancées avec la communauté académique et industrielle :
- đ„ CroissantLLM et ses nombreuses variantes sont publiĂ©s sous licence MIT, favorisant la rĂ©utilisation par la communautĂ© acadĂ©mique.
- đ Le plus grand corpus de prĂ©-entraĂźnement en français existant Ă ce jour, couvrant de trĂšs nombreuses typologies de donnĂ©es toutes sous licences permissives.
- đ FrenchBench : Un benchmark d’Ă©valuation de LLM de haute qualitĂ© sur des tĂąches industrielles d’intĂ©rĂȘt, comprenant des jeux de donnĂ©es mis Ă disposition par ILLUIN Technology.
Accédez aux ressources
Pour en savoir plus et accéder aux ressources :
Remerciements
Ce projet n’aurait pas vu le jour sans l’immense travail des Ă©quipes de R&D, qui y ont contribuĂ© pendant de nombreux mois. Un grand merci Ă Manuel Faysse, Gautier Viaud, AntĂłnio Loison, Pierre Colombo, Celine Hudelot, Renaud Monnet, Paul-Henry CournĂšde, Robert VESOUL, Nuno Miguel Guerreiro, Patrick Fernandes ainsi qu’Ă l’UniversitĂ© Paris-Saclay. đ











