[Konfetti]

🥐 CroissantLLM: Ein wirklich zweisprachiges französisch-englisches Sprachmodell

Einleitung

Wir freuen uns sehr, CroissantLLM vorstellen zu dürfen, ein kleines, aber leistungsfähiges Sprachmodell mit 1,3 Milliarden Parametern, das auf 3T-Tokens trainiert wurde, vollständig offen ist und wirklich zweisprachig ist! Das Ziel ist es, der Forschungs- und Industriegemeinschaft ein leistungsstarkes, vollständig quelloffenes zweisprachiges Modell zur Verfügung zu stellen, das schnell auf lokaler Hardware für Endverbraucher läuft. Unser Ansatz basiert auf Transparenz. Neben dem Modell und verschiedenen Checkpoints veröffentlichen wir neue hochwertige französische Datensätze aus den Bereichen Recht, Verwaltung, Kultur, Wirtschaft, Wissenschaft und Übersetzung sowie FrenchBench, einen neuartigen Bewertungsmaßstab zur Beurteilung der LLM-Leistung in Französisch!

Die Daten

Die meisten aktuellen Modelle wurden anhand von überwiegend englischen Korpora trainiert, was zu Leistungseinbußen in anderen Sprachen und zu einer englischzentrierten kulturellen Verzerrung geführt hat. Mit CroissantLLM wollen wir ein Modell trainieren, in dem Englisch nicht die dominierende Sprache ist, und ein Verhältnis von 1:1 zwischen englischen und französischen Daten anstreben! Eine der Herausforderungen bestand darin, ausreichende Mengen an hochwertigen Daten in französischer Sprache zu sammeln. Wir haben Daten aus verschiedenen Quellen gesammelt, gefiltert und bereinigt, um verschiedene Bereiche (Recht, Verwaltung, Kultur, Wissenschaft usw.) abzudecken oder unterschiedliche Textmodalitäten (Sprachtranskriptionen, Filmuntertitel, Enzyklopädien, Foren, Webseiten) zu erfassen. Alle gesammelten Daten sind im technischen Bericht ausdrücklich aufgeführt, unterliegen freizügigen Lizenzen und werden zusammen mit den übrigen Projektartefakten geteilt. Insgesamt sammeln wir mehr als 303 Milliarden Token einsprachiger französischer Daten (1,3 Terabyte) sowie 36 Milliarden Token hochwertiger französisch-englischer Übersetzungsdaten und aggregieren diese mit englischen Daten und Code-Daten! Wir erstellen unseren endgültigen Datensatz mit 3 Billionen Token so, dass wir nach dem Upsampling gleiche Mengen an französischen und englischen Daten erhalten. Zum Vergleich: Das Training eines LLM mit 3 Billionen Token ist enorm! Es ist größer als die Anzahl der Tokens, die während des Trainings der Llama2-Modelle verwendet werden, und fast zehnmal so groß wie die der Bloom-Modelle, was CroissantLLM zum Modell macht, das bis heute mit den meisten französischen Daten trainiert wurde!

Das Modell

CroissantLLM ist ein Modell mit 1,3 Milliarden Parametern und einer Llama-Modellarchitektur. Die Wahl dieser Modellgröße beruht auf der Erkenntnis, dass der größte Engpass bei der breiten Einführung von Modellen darin besteht, dass es schwierig ist, Modelle auf handelsüblicher Hardware schnell laufen zu lassen. Betrachtet man die Downloads bei HuggingFace, so sind die am häufigsten heruntergeladenen Modelle nicht die leistungsstärksten (Llama2-70B, Mixtral 8x7B), sondern die kleineren (Llama2-7B, Mistral 7B), die einfacher und kostengünstiger zu bedienen und zu optimieren sind. Mit einer Modellgröße von 1,3 Milliarden kann CroissantLLM extrem schnell auf GPU-Servern der unteren Preisklasse ausgeführt werden, was einen hohen Durchsatz und eine geringe Latenz ermöglicht, aber auch auf CPUs oder sogar Mobilgeräten mit angemessenen Geschwindigkeiten! Der Kompromiss besteht natürlich darin, dass CroissantLLM nicht die gleichen allgemeinen Fähigkeiten in den Bereichen logisches Denken, Mathematik und Programmierung aufweist wie größere Modelle, aber es eignet sich perfekt für spezifischere industrielle Anwendungen, Übersetzungen oder sogar Chat-Funktionen, bei denen nicht immer die großen Modelle erforderlich sind!

Der Maßstab

Um die Leistungsfähigkeit des Modells über die englische Sprache hinaus zu bewerten, führt das Team FrenchBench ein, einen neuartigen Benchmark, der verschiedene Klassifizierungs- und Generierungsaufgaben umfasst, um die Leistungsfähigkeit von LLM im Französischen zu bewerten. FrenchBench Gen umfasst Aufgaben wie Titelgenerierung, Zusammenfassung, Fragegenerierung und Beantwortung von Fragen und stützt sich dabei auf den hochwertigen französischen Datensatz FQuaD (French Question Answering). Der Multiple-Choice-Teil von FrenchBench konzentriert sich auf logisches Denken, Faktenwissen und sprachliche Fähigkeiten.

Ergebnisse der französischen Bank (5 Schüsse)

Französisch-Bench Multiple Choice Ergebnisse (5-Schuss)

CroissantLLM ist das leistungsstärkste Modell seiner Größe in Französisch und übertrifft bei den meisten Aufgaben (Bloom 3B) Modelle, die bis zu dreimal größer sind. Wir bewerten das Modell auch anhand englischer Benchmarks und erreichen dabei die besten Modelle dieser Größe oder übertreffen sie sogar!

Englische Benchmarks (5-Schuss)

Die Anwendungen

Bislang haben wir nur über das Basismodell gesprochen! Es ist jedoch mittlerweile bekannt, dass Basismodelle nur die Grundlage der meisten modernen LLM-Systeme bilden. Um die beste Leistung zu erzielen, ist es wichtig, eine zweite Trainingsphase durchzuführen, die als überwachtes Fine-Tuning bezeichnet wird! Wir feinabstimmen CroissantLLM anhand von Chat-Daten, darunter auch einige ChatGPT-Interaktionen, und bewerten die Fähigkeiten von CroissantLLMChat bei verschiedenen Aufgaben in Französisch und Englisch, wie MT-Bench, Übersetzung, französische Quizfragen ...

MT-Bench-Leistung auf Englisch und Französisch

MT-Bench zielt darauf ab, die Fähigkeiten von LLMs in acht Bereichen zu bewerten. CroissantLLMChat zeigt gute Leistungen bei Aufgaben zum Verständnis der französischen Sprache wie Schreiben und Rollenspiel und übertrifft damit Modelle gleicher Größe. Es verfügt außerdem über gute allgemeine Kenntnisse in den Bereichen MINT und Geisteswissenschaften. Eine Frage, mit der sich diese Arbeit befasst, ist, ob das Training mit zweisprachigen Daten über die Verbesserung des Sprachverständnisses und der Schreibfähigkeiten eines Modells in einer anderen Sprache hinausgeht und den Modellen auch neues Wissen und andere kulturelle Vorurteile vermittelt. Wir bewerten das Wissen über die französische Kultur anhand einer Quizaufgabe, die aus Fragen zu Frankreich-bezogenen Themen besteht, die auf Englisch gestellt werden. Die Ergebnisse von FrenchTrivia zeigen, dass das Vortraining mit einem sehr großen Korpus zu deutlich höheren Wissensfähigkeiten führt.

Ergebnisse des französischen Quiz

Die Vorteile des Trainings mit französischen und englischen Daten im Verhältnis 1:1 und mit parallelen Daten zeigen sich auch bei Übersetzungsaufgaben. Tatsächlich übertrifft CroissantLLM große Modelle wie Llama und Mistral 7B in Few-Shot-Einstellungen und ist auf Augenhöhe mit dem hochmodernen spezialisierten Übersetzungsmodell derselben Größe, NLLB 1.3B, wobei es seine allgemeinen Chat-Fähigkeiten beibehält.

Übersetzungsergebnisse

Die Transparenz

Modernste Modelle, sowohl proprietäre als auch offene, werden häufig von stark investorengestützten Unternehmen entwickelt und trainiert, die sich einen Wettbewerbsvorteil sichern wollen, indem sie ihre Trainingsdaten und Strategien geheim halten und so den Rest der Branche daran hindern, diese Modelle vollständig zu untersuchen und zu verstehen. Darüber hinaus gibt es anhaltende Debatten darüber, wem die Daten, die zum Trainieren dieser Sprachmodelle verwendet werden, tatsächlich gehören, wobei die rechtlichen Auswirkungen immer mehr in den Vordergrund rücken. Aktuelle politische Diskussionen, wie beispielsweise der EU-KI-Akt und Anhörungen im US-Senat, unterstreichen die wachsende Notwendigkeit von Transparenz bei der KI-Entwicklung, um die Einhaltung gesetzlicher Vorschriften zu gewährleisten und Vertrauen bei den Nutzern aufzubauen. Die CroissantLLM-Initiative wurde von Anfang an unter Berücksichtigung der Transparenz konzipiert. Wir erfüllen 81 % der Transparenzkriterien auf der FMTI Framework, weit über die Ergebnisse selbst der offensten Initiativen hinaus, indem die Daten, Modelle, Schulungsverfahren und der gesamte Code, der zur Kuratierung der Daten und zum Trainieren des Modells verwendet wurde, veröffentlicht werden.

Die Wissenschaft

CroissantLLM und die damit verbundenen Artefakte sind mehr als nur ein leistungsfähiges Modell, sondern sollen auch dazu beitragen, die weitere Forschung zu mehrsprachigen Sprachmodellen voranzutreiben, die Auswirkungen von Vorabtrainingsdaten auf internes Wissen zu verstehen und die Dynamik von Modellen zu untersuchen, die weit über den optimalen Schwellenwert von Chinchilla hinaus trainiert wurden. Dies wird zu weiteren Veröffentlichungen über das Auswendiglernen von Modellen und die Split-Kapazität zweisprachiger Sprachmodelle führen.

Links

Die Modelle, Datensätze, Trainingscodes, Bewertungsbenchmarks und Daten sind vollständig quelloffen.

CroissantLLM läuft auch auf mobilen Geräten der unteren Preisklasse, und wir werden die APK bald veröffentlichen!

Danksagungen

Diese Arbeit ist eine Zusammenarbeit von Partnern aus Wissenschaft und Industrie. Auf akademischer Seite sind die Hauptautoren mit der CentraleSupélec (Université Paris Saclay) und dem Instituto Superior Técnico de Lisboa verbunden, während andere Mitwirkende mit der Sorbonne Université und dem Imperial College London in Verbindung stehen. Auf industrieller Seite erhalten die Hauptautoren finanzielle Unterstützung von Illuin Technology (Paris), Unbabel (Lissabon) und Equall (New York, Lissabon, Paris). Die Rechenleistung für das Training wird hauptsächlich auf dem Supercomputer Jean Zay bereitgestellt, der von GENCI IDRIS im Rahmen des Rechengrant 2023-AD011014668R1 betrieben wird.

Ähnliche Artikel

GroUse: Der Bewertungsmaßstab von RAG

F&E-Veröffentlichungen

GroUSE, ein einzigartiger Datensatz, der entwickelt wurde, um die Genauigkeit von Bewertern in verankerten Frage-Antwort-Systemen zu testen. In …

ColPali: Effiziente Dokumentensuche mit Vision-Sprachmodellen 👀

F&E-Veröffentlichungen

ColPali, eine innovative Methode der Dokumentenrecherche, die Vision-Language-Modelle in einem RAG-Rahmen (Retrieval-Augmented Generation) verwendet …

Erfahren Sie mehr über ILLUIN Technology und unsere Angebote!

Kontaktieren Sie uns