Llama 3.1: Open-Source-Modell übertrifft geschlossene Spitzenmodelle, wird die KI-Landschaft neu gestaltet?

Meta-Gründer Zuckerberg verpflichtet sich entschlossen zur umfassenden Förderung einer Open-Source-Strategie.

Meta hat offiziell Llama 3.1 veröffentlicht, das Modelle in drei Größen umfasst: 8B, 70B und 405B, mit einer maximalen Kontextlänge von bis zu 128k. Die Hauptmerkmale sind:

  1. Die 405B-Version ist eines der größten Open-Source-Modelle und übertrifft die Leistung bestehender Top-KI-Modelle.

  2. Einführung eines längeren Kontextfensters (bis zu 128K Tokens), das komplexere Aufgaben und Gespräche ermöglicht.

  3. Unterstützung mehrsprachiger Ein- und Ausgabe, was die Vielseitigkeit und Anwendbarkeit erhöht.

  4. Verbesserte Schlussfolgerungsfähigkeiten, insbesondere bei der Lösung komplexer mathematischer Probleme und der Echtzeit-Inhaltsgenerierung.

Meta erklärt, dass die Ära, in der Open-Source-Sprachmodelle hinter geschlossenen Modellen zurückbleiben, bald zu Ende geht, und Llama 3.1 eine neue Ära der Open-Source-Führung einleitet. Die 405B-Version ist in ihrer Leistung bereits mit GPT-4 und Claude 3 vergleichbar.

In Bezug auf die Modellarchitektur wurde Llama 3.1 mit über 15 Billionen Tokens trainiert und nutzte über 16.000 H100 GPUs. Für Stabilität und Benutzerfreundlichkeit wurde eine Standard-Decoder-Only-Transformer-Architektur anstelle einer MoE-Architektur verwendet.

Das Forschungsteam implementierte iterative Post-Training-Methoden, um die Modellfunktionalität durch überwachtes Feintuning und direkte Präferenzoptimierung zu verbessern. Zudem wurde die Verwendung des 405B-Modells als "Lehrermodell" für kleinere Modelle erforscht.

Meta veröffentlichte auch ein vollständiges Referenzsystem mit mehreren Beispielanwendungen und neuen Komponenten wie Llama Guard 3 und Prompt Guard. Zudem wurde die "Llama Stack" Standardschnittstelle vorgestellt, um die Erstellung von Toolchain-Komponenten und Anwendungen zu vereinfachen.

Laut Benchmarks ist die 405B-Version in mehreren Tests vergleichbar oder leicht überlegen gegenüber geschlossenen Modellen wie GPT-4. Die 8B- und 70B-Versionen übertreffen auch deutlich andere Open-Source-Modelle ähnlicher Größe.

Link zum offiziellen Meta-Blogbeitrag

Link zu Mark Zuckerbergs Artikel über Open-Source-KI