Meta hat offiziell Llama 3.1 veröffentlicht, das Modelle in drei Größen umfasst: 8B, 70B und 405B, mit einer maximalen Kontextlänge von bis zu 128k. Die Hauptmerkmale sind:
-
Die 405B-Version ist eines der größten Open-Source-Modelle und übertrifft die Leistung bestehender Top-KI-Modelle.
-
Einführung eines längeren Kontextfensters (bis zu 128K Tokens), das komplexere Aufgaben und Gespräche ermöglicht.
-
Unterstützung mehrsprachiger Ein- und Ausgabe, was die Vielseitigkeit und Anwendbarkeit erhöht.
-
Verbesserte Schlussfolgerungsfähigkeiten, insbesondere bei der Lösung komplexer mathematischer Probleme und der Echtzeit-Inhaltsgenerierung.
Meta erklärt, dass die Ära, in der Open-Source-Sprachmodelle hinter geschlossenen Modellen zurückbleiben, bald zu Ende geht, und Llama 3.1 eine neue Ära der Open-Source-Führung einleitet. Die 405B-Version ist in ihrer Leistung bereits mit GPT-4 und Claude 3 vergleichbar.
In Bezug auf die Modellarchitektur wurde Llama 3.1 mit über 15 Billionen Tokens trainiert und nutzte über 16.000 H100 GPUs. Für Stabilität und Benutzerfreundlichkeit wurde eine Standard-Decoder-Only-Transformer-Architektur anstelle einer MoE-Architektur verwendet.
Das Forschungsteam implementierte iterative Post-Training-Methoden, um die Modellfunktionalität durch überwachtes Feintuning und direkte Präferenzoptimierung zu verbessern. Zudem wurde die Verwendung des 405B-Modells als "Lehrermodell" für kleinere Modelle erforscht.
Meta veröffentlichte auch ein vollständiges Referenzsystem mit mehreren Beispielanwendungen und neuen Komponenten wie Llama Guard 3 und Prompt Guard. Zudem wurde die "Llama Stack" Standardschnittstelle vorgestellt, um die Erstellung von Toolchain-Komponenten und Anwendungen zu vereinfachen.
Laut Benchmarks ist die 405B-Version in mehreren Tests vergleichbar oder leicht überlegen gegenüber geschlossenen Modellen wie GPT-4. Die 8B- und 70B-Versionen übertreffen auch deutlich andere Open-Source-Modelle ähnlicher Größe.