[Konfetti]

đŸ„ CroissantLLM: Ein wirklich zweisprachiges französisch-englisches Sprachmodell

Einleitung

Wir freuen uns sehr, CroissantLLM vorstellen zu dĂŒrfen, ein kleines, aber leistungsfĂ€higes Sprachmodell mit 1,3 Milliarden Parametern, das auf 3T-Tokens trainiert wurde, vollstĂ€ndig offen ist und wirklich zweisprachig ist! Das Ziel ist es, der Forschungs- und Industriegemeinschaft ein leistungsstarkes, vollstĂ€ndig quelloffenes zweisprachiges Modell zur VerfĂŒgung zu stellen, das schnell auf lokaler Hardware fĂŒr Endverbraucher lĂ€uft. Unser Ansatz basiert auf Transparenz. Neben dem Modell und verschiedenen Checkpoints veröffentlichen wir neue hochwertige französische DatensĂ€tze aus den Bereichen Recht, Verwaltung, Kultur, Wirtschaft, Wissenschaft und Übersetzung sowie FrenchBench, einen neuartigen Bewertungsmaßstab zur Beurteilung der LLM-Leistung in Französisch!

Die Daten

Die meisten aktuellen Modelle wurden anhand von ĂŒberwiegend englischen Korpora trainiert, was zu Leistungseinbußen in anderen Sprachen und zu einer englischzentrierten kulturellen Verzerrung gefĂŒhrt hat. Mit CroissantLLM wollen wir ein Modell trainieren, in dem Englisch nicht die dominierende Sprache ist, und ein VerhĂ€ltnis von 1:1 zwischen englischen und französischen Daten anstreben! Eine der Herausforderungen bestand darin, ausreichende Mengen an hochwertigen Daten in französischer Sprache zu sammeln. Wir haben Daten aus verschiedenen Quellen gesammelt, gefiltert und bereinigt, um verschiedene Bereiche (Recht, Verwaltung, Kultur, Wissenschaft usw.) abzudecken oder unterschiedliche TextmodalitĂ€ten (Sprachtranskriptionen, Filmuntertitel, EnzyklopĂ€dien, Foren, Webseiten) zu erfassen. Alle gesammelten Daten sind im technischen Bericht ausdrĂŒcklich aufgefĂŒhrt, unterliegen freizĂŒgigen Lizenzen und werden zusammen mit den ĂŒbrigen Projektartefakten geteilt.   Insgesamt sammeln wir mehr als 303 Milliarden Token einsprachiger französischer Daten (1,3 Terabyte) sowie 36 Milliarden Token hochwertiger französisch-englischer Übersetzungsdaten und aggregieren diese mit englischen Daten und Code-Daten! Wir erstellen unseren endgĂŒltigen Datensatz mit 3 Billionen Token so, dass wir nach dem Upsampling gleiche Mengen an französischen und englischen Daten erhalten. Zum Vergleich: Das Training eines LLM mit 3 Billionen Token ist enorm! Es ist grĂ¶ĂŸer als die Anzahl der Tokens, die wĂ€hrend des Trainings der Llama2-Modelle verwendet werden, und fast zehnmal so groß wie die der Bloom-Modelle, was CroissantLLM zum Modell macht, das bis heute mit den meisten französischen Daten trainiert wurde!

Das Modell

CroissantLLM ist ein Modell mit 1,3 Milliarden Parametern und einer Llama-Modellarchitektur. Die Wahl dieser ModellgrĂ¶ĂŸe beruht auf der Erkenntnis, dass der grĂ¶ĂŸte Engpass bei der breiten EinfĂŒhrung von Modellen darin besteht, dass es schwierig ist, Modelle auf handelsĂŒblicher Hardware schnell laufen zu lassen. Betrachtet man die Downloads bei HuggingFace, so sind die am hĂ€ufigsten heruntergeladenen Modelle nicht die leistungsstĂ€rksten (Llama2-70B, Mixtral 8x7B), sondern die kleineren (Llama2-7B, Mistral 7B), die einfacher und kostengĂŒnstiger zu bedienen und zu optimieren sind. Mit einer ModellgrĂ¶ĂŸe von 1,3 Milliarden kann CroissantLLM extrem schnell auf GPU-Servern der unteren Preisklasse ausgefĂŒhrt werden, was einen hohen Durchsatz und eine geringe Latenz ermöglicht, aber auch auf CPUs oder sogar MobilgerĂ€ten mit angemessenen Geschwindigkeiten! Der Kompromiss besteht natĂŒrlich darin, dass CroissantLLM nicht die gleichen allgemeinen FĂ€higkeiten in den Bereichen logisches Denken, Mathematik und Programmierung aufweist wie grĂ¶ĂŸere Modelle, aber es eignet sich perfekt fĂŒr spezifischere industrielle Anwendungen, Übersetzungen oder sogar Chat-Funktionen, bei denen nicht immer die großen Modelle erforderlich sind!

Der Maßstab

Um die LeistungsfĂ€higkeit des Modells ĂŒber die englische Sprache hinaus zu bewerten, fĂŒhrt das Team FrenchBench ein, einen neuartigen Benchmark, der verschiedene Klassifizierungs- und Generierungsaufgaben umfasst, um die LeistungsfĂ€higkeit von LLM im Französischen zu bewerten. FrenchBench Gen umfasst Aufgaben wie Titelgenerierung, Zusammenfassung, Fragegenerierung und Beantwortung von Fragen und stĂŒtzt sich dabei auf den hochwertigen französischen Datensatz FQuaD (French Question Answering). Der Multiple-Choice-Teil von FrenchBench konzentriert sich auf logisches Denken, Faktenwissen und sprachliche FĂ€higkeiten.

Ergebnisse der französischen Bank (5 SchĂŒsse)

Französisch-Bench Multiple Choice Ergebnisse (5-Schuss)

CroissantLLM ist das leistungsstĂ€rkste Modell seiner GrĂ¶ĂŸe in Französisch und ĂŒbertrifft bei den meisten Aufgaben (Bloom 3B) Modelle, die bis zu dreimal grĂ¶ĂŸer sind. Wir bewerten das Modell auch anhand englischer Benchmarks und erreichen dabei die besten Modelle dieser GrĂ¶ĂŸe oder ĂŒbertreffen sie sogar!

Englische Benchmarks (5-Schuss)

 

Die Anwendungen

Bislang haben wir nur ĂŒber das Basismodell gesprochen! Es ist jedoch mittlerweile bekannt, dass Basismodelle nur die Grundlage der meisten modernen LLM-Systeme bilden. Um die beste Leistung zu erzielen, ist es wichtig, eine zweite Trainingsphase durchzufĂŒhren, die als ĂŒberwachtes Fine-Tuning bezeichnet wird! Wir feinabstimmen CroissantLLM anhand von Chat-Daten, darunter auch einige ChatGPT-Interaktionen, und bewerten die FĂ€higkeiten von CroissantLLMChat bei verschiedenen Aufgaben in Französisch und Englisch, wie MT-Bench, Übersetzung, französische Quizfragen ...

MT-Bench-Leistung auf Englisch und Französisch

MT-Bench zielt darauf ab, die FĂ€higkeiten von LLMs in acht Bereichen zu bewerten. CroissantLLMChat zeigt gute Leistungen bei Aufgaben zum VerstĂ€ndnis der französischen Sprache wie Schreiben und Rollenspiel und ĂŒbertrifft damit Modelle gleicher GrĂ¶ĂŸe. Es verfĂŒgt außerdem ĂŒber gute allgemeine Kenntnisse in den Bereichen MINT und Geisteswissenschaften. Eine Frage, mit der sich diese Arbeit befasst, ist, ob das Training mit zweisprachigen Daten ĂŒber die Verbesserung des SprachverstĂ€ndnisses und der SchreibfĂ€higkeiten eines Modells in einer anderen Sprache hinausgeht und den Modellen auch neues Wissen und andere kulturelle Vorurteile vermittelt. Wir bewerten das Wissen ĂŒber die französische Kultur anhand einer Quizaufgabe, die aus Fragen zu Frankreich-bezogenen Themen besteht, die auf Englisch gestellt werden. Die Ergebnisse von FrenchTrivia zeigen, dass das Vortraining mit einem sehr großen Korpus zu deutlich höheren WissensfĂ€higkeiten fĂŒhrt.

Ergebnisse des französischen Quiz

Die Vorteile des Trainings mit französischen und englischen Daten im VerhĂ€ltnis 1:1 und mit parallelen Daten zeigen sich auch bei Übersetzungsaufgaben. TatsĂ€chlich ĂŒbertrifft CroissantLLM große Modelle wie Llama und Mistral 7B in Few-Shot-Einstellungen und ist auf Augenhöhe mit dem hochmodernen spezialisierten Übersetzungsmodell derselben GrĂ¶ĂŸe, NLLB 1.3B, wobei es seine allgemeinen Chat-FĂ€higkeiten beibehĂ€lt.

Übersetzungsergebnisse

 

Die Transparenz

Modernste Modelle, sowohl proprietĂ€re als auch offene, werden hĂ€ufig von stark investorengestĂŒtzten Unternehmen entwickelt und trainiert, die sich einen Wettbewerbsvorteil sichern wollen, indem sie ihre Trainingsdaten und Strategien geheim halten und so den Rest der Branche daran hindern, diese Modelle vollstĂ€ndig zu untersuchen und zu verstehen. DarĂŒber hinaus gibt es anhaltende Debatten darĂŒber, wem die Daten, die zum Trainieren dieser Sprachmodelle verwendet werden, tatsĂ€chlich gehören, wobei die rechtlichen Auswirkungen immer mehr in den Vordergrund rĂŒcken. Aktuelle politische Diskussionen, wie beispielsweise der EU-KI-Akt und Anhörungen im US-Senat, unterstreichen die wachsende Notwendigkeit von Transparenz bei der KI-Entwicklung, um die Einhaltung gesetzlicher Vorschriften zu gewĂ€hrleisten und Vertrauen bei den Nutzern aufzubauen. Die CroissantLLM-Initiative wurde von Anfang an unter BerĂŒcksichtigung der Transparenz konzipiert. Wir erfĂŒllen 81 % der Transparenzkriterien auf der FMTI Framework, weit ĂŒber die Ergebnisse selbst der offensten Initiativen hinaus, indem die Daten, Modelle, Schulungsverfahren und der gesamte Code, der zur Kuratierung der Daten und zum Trainieren des Modells verwendet wurde, veröffentlicht werden.

Die Wissenschaft

CroissantLLM und die damit verbundenen Artefakte sind mehr als nur ein leistungsfĂ€higes Modell, sondern sollen auch dazu beitragen, die weitere Forschung zu mehrsprachigen Sprachmodellen voranzutreiben, die Auswirkungen von Vorabtrainingsdaten auf internes Wissen zu verstehen und die Dynamik von Modellen zu untersuchen, die weit ĂŒber den optimalen Schwellenwert von Chinchilla hinaus trainiert wurden. Dies wird zu weiteren Veröffentlichungen ĂŒber das Auswendiglernen von Modellen und die Split-KapazitĂ€t zweisprachiger Sprachmodelle fĂŒhren.

Links

Die Modelle, DatensÀtze, Trainingscodes, Bewertungsbenchmarks und Daten sind vollstÀndig quelloffen.

CroissantLLM lÀuft auch auf mobilen GerÀten der unteren Preisklasse, und wir werden die APK bald veröffentlichen!

Danksagungen

Diese Arbeit ist eine Zusammenarbeit von Partnern aus Wissenschaft und Industrie. Auf akademischer Seite sind die Hauptautoren mit der CentraleSupĂ©lec (UniversitĂ© Paris Saclay) und dem Instituto Superior TĂ©cnico de Lisboa verbunden, wĂ€hrend andere Mitwirkende mit der Sorbonne UniversitĂ© und dem Imperial College London in Verbindung stehen. Auf industrieller Seite erhalten die Hauptautoren finanzielle UnterstĂŒtzung von Illuin Technology (Paris), Unbabel (Lissabon) und Equall (New York, Lissabon, Paris). Die Rechenleistung fĂŒr das Training wird hauptsĂ€chlich auf dem Supercomputer Jean Zay bereitgestellt, der von GENCI IDRIS im Rahmen des Rechengrant 2023-AD011014668R1 betrieben wird.

Ähnliche Artikel

Erfahren Sie mehr ĂŒber ILLUIN Technology und unsere Angebote!