Llama 3.1 Leak übertrifft GPT-4o: Der neue Champion der Open-Source-KI

Meta unter der Marke Llama 3.1 Modell wurde erneut vorzeitig geleakt, was zu hitzigen Diskussionen in der Entwicklergemeinschaft führte. Das größte in diesem Leak enthaltene Modell erreicht 405 Milliarden Parameter, während auch die 8-Milliarden- und 70-Milliarden-Versionen Upgrades erhalten haben. Das gesamte Modellpaket hat eine Größe von etwa 820 GB. Vorläufige Benchmark-Ergebnisse sind beeindruckend, und entsprechende Download-Links werden im Internet weit verbreitet.

Llama 3.1 Familie, erscheint morgen

Laut der durchgesickerten Modellkarte wird Llama 3.1 am 23. veröffentlicht.

Die Lizenz ist "Custom Commercial License" und "Llama 3.1 Community License".

Konkret handelt es sich bei der Llama 3.1-Serie mehrsprachiger großer Sprachmodelle um eine Reihe vortrainierter und anweisungsoptimierter generativer Modelle, einschließlich der Parameterskalen 8B, 70B und 405B.

Die anweisungsoptimierten reinen Textmodelle von Llama 3.1 (8B, 70B, 405B) sind für mehrsprachige Konversationsanwendungen optimiert.

Neben Englisch unterstützt es 7 Sprachen, darunter Deutsch, Französisch, Italienisch, Portugiesisch, Hindi, Spanisch und Thai.

Laut der Einführung umfassen die neuen Fähigkeiten von Llama 3.1 längeren Kontext, Unterstützung für mehrsprachige Ein- und Ausgabe sowie Integration mit Entwickler- und Drittanbieter-Tools.

Benchmark-Tests

Eine Benchmark-Grafik auf GitHub (jetzt 404) zeigt die hervorragende Leistung von Llama 3.1 in Benchmark-Tests.

Insbesondere setzte Llama 3.1 405B in Benchmark-Auswertungen vortrainierter Modelle neue Rekorde in allgemeinen Aufgaben, Wissensschlussfolgerung und Leseverständnis.

Die Verbesserungen waren am deutlichsten in den MMLU- und SQuAD-Teilbenchmarks.

Währenddessen zeigten die 8B- und 70B-Parameterversionen von Llama 3.1 leichte Verbesserungen im Vergleich zu Llama 3. Bei einigen Metriken schnitt das 70B Llama 3.1 jedoch immer noch schlechter ab als sein Vorgänger.

Darüber hinaus ist Llama 3.1 405B unter den anweisungsoptimierten Modellen deutlich stärker als das vortrainierte Modell. Es übertrifft die feinabgestimmten 8B- und 70B-Versionen deutlich in Bezug auf Argumentation, Programmierung, Mathematik, Werkzeugnutzung und mehrsprachige Benchmarks.

Die feinabgestimmten Modelle Llama 3.1 8B und 70B zeigen ebenfalls erhebliche Leistungsverbesserungen bei mehreren Fähigkeitsaufgaben.

Einige Internetnutzer stellten Benchmarks anderer führender Modelle zusammen und zeigten durch Vergleich, dass Claude 3.5 Sonnet der Champion über alle Benchmarks hinweg ist.

Die feinabgestimmte Version von Llama 3.1 405B schneidet nur im MMLU Pro Mathematik-Benchmark am besten ab und schlägt alle großen Modelle mit einer Punktzahl von 73,3%.

Darüber hinaus ist 405B gleichauf mit GPT-4o in den Benchmarks GPQA (Fachwissen und Argumentation auf Graduiertenniveau), Mathematik, DROP (Leseverständnis), MGSM (mehrsprachige Mathematik), HumanEval (Programmierung) und BBH (Wissensbewertung).

Außerdem übertrifft 405B das neueste GPT-4o Mini-Modell deutlich.

Llama 3.1 ist ein autoregressives Sprachmodell, das eine optimierte Transformer-Architektur verwendet. Die angepassten Versionen verwenden SFT und RLHF, um sich an menschliche Sicherheitspräferenzen anzupassen.

Für die Llama 3.1-Serienmodelle beziehen sich die Token-Zählungen nur auf Vortrainingsdaten.

Alle Modellversionen verwenden Grouped-Query Attention (GQA), um die Inferenzskalierbarkeit zu verbessern.

15 Billionen Token Trainingsdaten

Wie Llama 3 wurde Llama 3.1 mit etwa 15 Billionen Token aus öffentlich zugänglichen Quellen vortrainiert.

Die Feinabstimmungsdaten umfassen öffentlich verfügbare Anweisungsdatensätze sowie über 25 Millionen synthetische Proben, wobei die Vortrainingsdaten im Dezember 2023 abgeschnitten wurden.

Verfügbar für kommerzielle und Forschungszwecke

Llama 3.1 unterstützt sowohl kommerzielle als auch Forschungsnutzung in mehrsprachigen Umgebungen.

Die anweisungsoptimierten reinen Textmodelle eignen sich für Chat-Assistenten, während vortrainierte Modelle sich an verschiedene natürliche Sprachgenerierungsaufgaben anpassen können. Die Llama 3.1-Modellsammlung unterstützt auch die Verwendung ihrer Modellausgaben zur Verbesserung anderer Modelle, einschließlich synthetischer Datengenerierung und Modelldestillation.

Verwendungen, die gegen Gesetze und Vorschriften, Nutzungsrichtlinien und die Llama 3.1 Community License verstoßen, oder Verwendungen über die unterstützten Sprachen hinaus, liegen außerhalb des Anwendungsbereichs.

Das Team betont, dass Llama 3.1 auf einem breiteren Satz von Sprachen trainiert wurde, der über die 8 unterstützten Sprachen hinausgeht. Entwickler können es für die Verwendung in anderen Sprachen feinabstimmen, sofern sie Richtlinien wie die Community-Lizenz einhalten und eine sichere und verantwortungsvolle Nutzung gewährleisten.

39,3 Millionen GPU-Stunden Training

Für das Vortraining verwendete Meta benutzerdefinierte Trainingsbibliotheken, Metas eigene GPU-Cluster und Produktionsinfrastruktur. Feinabstimmung, Annotation und Auswertung wurden ebenfalls auf der Produktionsinfrastruktur durchgeführt.

Das Training verwendete kumulativ 39,3 Millionen GPU-Stunden Rechenzeit, wobei H100-80GB (700W TDP) als Hardwaretyp diente.

Die Trainingszeit ist die gesamte GPU-Zeit, die für das Training jedes Modells erforderlich ist, und der Stromverbrauch ist die maximale Leistungskapazität jedes GPU-Geräts, angepasst an die Energienutzungseffizienz.