Llama 3.1 405B: Open-Source-KI-Gigant übertrifft GPT-4 und läutet eine neue Ära ein

Meta hat gerade wie geplant die neueste Version des Llama-Modells - Llama 3.1 - veröffentlicht.

Meta hat Llama 3.1 Modelle veröffentlicht, die in drei Größen verfügbar sind: 8B, 70B und 405B. Die Hauptmerkmale sind:

  • Maximale Kontextlänge auf 128K erhöht
  • Unterstützung mehrerer Sprachen
  • Hervorragende Leistung bei der Codegenerierung
  • Komplexe Schlussfolgerungsfähigkeiten

Die Benchmark-Ergebnisse zeigen:

  • Llama 3.1 405B übertrifft GPT-4 0125 und ist vergleichbar mit GPT-4o und Claude 3.5
  • Llama 3.1 8B übertrifft Gemma 2 9B 1T und Mistral 7B Instruct
  • Llama 3.1 70B übertrifft GPT-3.5 Turbo

Trainingsdetails für Llama 3.1 405B:

  • Training mit über 15 Billionen Tokens
  • Training auf über 16000 H100 GPUs
  • Iteratives Nachtraining mit überwachter Feinabstimmung und direkter Präferenzoptimierung
  • Verbesserte Menge und Qualität der Vortrainings- und Nachtrainingsdaten
  • Quantisierung von 16-Bit auf 8-Bit Präzision zur Reduzierung des Rechenressourcenbedarfs

Weitere Highlights:

  • Offene/kostenlose Modellgewichte und Code
  • Lizenz erlaubt Feinabstimmung, Modelldestillation und beliebige Bereitstellung
  • Llama Stack API für einfache Integration
  • Unterstützung für die Koordination mehrerer Komponenten, einschließlich externer Werkzeuge

Meta verbietet nicht mehr die Verwendung von Llama 3 zur Verbesserung anderer Modelle, was eine offenere Haltung zeigt. Diese Veröffentlichung markiert den ersten Moment, in dem Open-Source-Großmodelle die Leistung von geschlossenen Modellen erreichen und leitet eine neue Ära ein, die von Open Source angeführt wird.

Modell-Download-Link

92-seitiger Trainingsbericht