Erschütternde Veröffentlichung: Llama 3.1 Open-Source-Großmodell leitet neue Ära der KI für alle ein

Einsatz von 16.000 H100 GPUs, basierend auf einem Training mit 150 Milliarden Tokens.

01. 405B Open-Source-Modell auf Augenhöhe mit GPT-4o, 25 Partner sind bereit

Meta hat die Leistung von über 150 Benchmark-Datensätzen bewertet. Llama 3.1 405B ist in einer Reihe von Aufgaben wie gesundem Menschenverstand, Handlungsfähigkeit, Mathematik, Werkzeugnutzung und mehrsprachiger Übersetzung mit GPT-4o, Claude 3.5 Sonnet und Gemini Ultra vergleichbar.

In realen Szenarien schnitt Llama 3.1 405B im Vergleich zu menschlichen Bewertungen insgesamt besser ab als GPT-4o und Claude 3.5 Sonnet.

Die aktualisierten Llama 3.1 8B- und 70B-Modelle zeigen auch bessere Leistungen im Vergleich zu Modellen gleicher Größe. Diese kleineren Modelle unterstützen das gleiche 128K-Token-Kontextfenster, Mehrsprachigkeit, verbesserte Inferenz und modernste Werkzeugnutzung für fortgeschrittenere Anwendungen.

Meta hat die Lizenz aktualisiert und erlaubt Entwicklern erstmals, die Ausgabe von Llama-Modellen, einschließlich der 405B-Parametergröße, zur Verbesserung anderer Modelle zu verwenden.

Gleichzeitig hat sich Metas Open-Source-Ökosystem weiter ausgedehnt, mit über 25 Unternehmen, die neue Llama 3.1-Modelle einführen.

Amazon Web Services, Databricks und NVIDIA bieten umfassende Dienste an, um Entwickler beim Feintuning und Training ihrer eigenen Modelle zu unterstützen. KI-Chip-Startups wie Groq haben Inferenzdienste mit geringer Latenz und niedrigen Kosten für alle neuen Modelle von Meta entwickelt.

Diese Modelle werden auch auf großen Cloud-Plattformen wie Amazon Web Services, Microsoft Azure, Google Cloud und Oracle verfügbar sein.

Unternehmen wie Scale AI, Dell und Deloitte sind bereit, Unternehmen bei der Einführung von Llama-Modellen und dem Training angepasster Modelle mit eigenen Daten zu unterstützen.

Llama 3.1 405B ist nicht nur das stärkste Open-Source-Modell, sondern hat auch das Potenzial, das stärkste Modell überhaupt zu werden. Der Abstand zwischen Open-Source und proprietären Modellen hat sich erneut deutlich verringert.

02. Vollständig optimierter Trainings-Stack, Fokus auf Skalierbarkeit der Modelle

Um das Modelltraining auf Basis von 15 Billionen Tokens zu ermöglichen und gleichzeitig die von Forschern gewünschten Ergebnisse in angemessener Zeit zu erzielen, hat Meta den Trainings-Stack vollständig optimiert.

Bei der Lösung dieser Herausforderungen konzentrierte sich Meta auf die Beibehaltung eines skalierbaren und direkteren Ansatzes für die Modellentwicklung:

  1. Die Forscher wählten die Standard-Decoder-Only-Transformer-Architektur mit geringfügigen Anpassungen, anstatt MoE-Modelle (Mixture of Experts) zu verwenden, um die Trainingsstabilität zu maximieren.

  2. Die Forscher verwendeten ein iteratives Nachtrainingsverfahren, bei dem in jeder Runde überwachtes Feintuning und direkte Präferenzoptimierung eingesetzt wurden. Dies ermöglichte es dem Modell, für jede Runde synthetische Daten höchster Qualität zu erstellen und die Leistung in jeder Fähigkeit zu verbessern.

Im Vergleich zu früheren Llama-Modellen hat Meta die Menge und Qualität der Daten für das Vor- und Nachtraining verbessert. Diese Verbesserungen umfassen die Entwicklung sorgfältigerer Vorverarbeitungs- und Verwaltungs-Pipelines für Vortrainingsdaten, die Entwicklung strengerer Qualitätssicherung und Filtermethoden für Nachtrainingsdaten.

Wie von den Scaling Laws für große Sprachmodelle erwartet, übertrifft Metas neues Flaggschiff-Modell kleinere Modelle, die mit der gleichen Strategie trainiert wurden. Meta nutzte auch das 405B-Parameter-Modell, um die Trainingsqualität seiner kleineren Modelle zu verbessern.

Um die großskalige Inferenz des 405B-Parameter-Modells zu unterstützen, quantisierten die Forscher das Modell von BF16 auf FP8, was die erforderlichen Rechenanforderungen effektiv reduzierte und es dem Modell ermöglichte, innerhalb eines einzelnen Serverknotens zu laufen.

In Bezug auf Anweisungs- und Chat-Feintuning generierten die Forscher das endgültige Modell durch mehrere Runden der Ausrichtung auf dem vortrainierten Modell, wobei jede Runde überwachtes Feintuning (SFT), Rejection Sampling (RS) und direkte Präferenzoptimierung (DPO) umfasste. Dabei wurde synthetische Datengenerierung verwendet, um die meisten SFT-Beispiele zu erzeugen und qualitativ hochwertigere synthetische Daten für alle Funktionen zu generieren.

Darüber hinaus wendete Meta verschiedene Datenverarbeitungstechniken an, um diese synthetischen Daten auf höchste Qualität zu filtern, was es den neuen Modellen ermöglichte, die Menge der Feintuning-Daten über alle Funktionen hinweg zu skalieren.

In Bezug auf die Daten balancierten die Forscher die Daten sorgfältig aus, um ein qualitativ hochwertiges Modell mit allen Funktionen zu erzeugen. Zum Beispiel wurde die Modellqualität bei kurzen Kontextbenchmarks sichergestellt, um eine Skalierung auf 128K Kontextlänge zu ermöglichen.

Zusätzlich kündigte Meta die Einführung eines ganzheitlichen Llama-Systems an. Dieses System umfasst nicht nur die Llama-Modelle, sondern auch die Koordination mehrerer Komponenten und externe Werkzeugaufrufe, um Entwicklern bei der Erstellung stärkerer kundenspezifischer Produkte als das Basismodell zu helfen.

Das Llama-System wird eine Reihe neuer Komponenten umfassen, einschließlich neuer Open-Source-Sicherheitstools wie Llama Guard 3 (mehrsprachiges Sicherheitsmodell) und Prompt Guard (Echtzeit-Injektionsfilter). Um die verteilten Komponenten zu verbinden, hat Meta auch einen Request for Comments für die Llama Stack API veröffentlicht, eine Standardschnittstelle, die es Drittanbieterprojekten erleichtert, Llama-Modelle zu nutzen.

Für gewöhnliche Entwickler bleibt die Verwendung eines Modells mit 405B Parametern eine Herausforderung, die erhebliche Rechenressourcen und Fachwissen erfordert.

Basierend auf dem Llama-System sollte generative KI-Entwicklung nicht nur auf Prompting beschränkt sein. Jeder sollte in der Lage sein, das 405B-Modell für mehr Aufgaben zu nutzen, einschließlich Echtzeit- und Batch-Inferenz, überwachtes Feintuning, modellspezifische Evaluierung, kontinuierliches Vortraining, Retrieval-Augmented Generation (RAG), Funktionsaufrufe, synthetische Datengenerierung und mehr.

Dies ist das bisher größte von Meta eingeführte Modell. In Zukunft werden weitere gerätefreundliche Größen, mehr Modalitäten und Updates auf Agent-Ebene folgen.

03. 405B-Großmodell revolutioniert Meta AI, Quest-Sprachassistent wird aufgerüstet

Jetzt beginnen mehrere Meta-Endgeräte, wie WhatsApp und der Meta AI-Chatbot, Llama 3.1 405B zu verwenden.

Meta AI unterstützt derzeit sieben neue Sprachen. Meta hat eine Reihe neuer Meta AI-Kreativwerkzeuge eingeführt, die sich hauptsächlich auf visuelle Generierung, Mathematik und Codierung konzentrieren.

Zunächst zur visuellen Generierung: Meta AI führt die Bildgenerierungsfunktion "Imagine Me" ein, die es Benutzern ermöglicht, in Meta AI-Chats "Imagine me" einzugeben und Prompts hinzuzufügen, wie "Imagine me as a member of royalty" oder "Imagine me in a surrealist painting". Daraufhin werden Bilder generiert, die mit Freunden und Familie geteilt werden können.