Meta hat Llama 3.1 Modelle veröffentlicht, die in drei Größen verfügbar sind: 8B, 70B und 405B. Die Hauptmerkmale sind:
- Maximale Kontextlänge auf 128K erhöht
- Unterstützung mehrerer Sprachen
- Hervorragende Leistung bei der Codegenerierung
- Komplexe Schlussfolgerungsfähigkeiten
Die Benchmark-Ergebnisse zeigen:
- Llama 3.1 405B übertrifft GPT-4 0125 und ist vergleichbar mit GPT-4o und Claude 3.5
- Llama 3.1 8B übertrifft Gemma 2 9B 1T und Mistral 7B Instruct
- Llama 3.1 70B übertrifft GPT-3.5 Turbo
Trainingsdetails für Llama 3.1 405B:
- Training mit über 15 Billionen Tokens
- Training auf über 16000 H100 GPUs
- Iteratives Nachtraining mit überwachter Feinabstimmung und direkter Präferenzoptimierung
- Verbesserte Menge und Qualität der Vortrainings- und Nachtrainingsdaten
- Quantisierung von 16-Bit auf 8-Bit Präzision zur Reduzierung des Rechenressourcenbedarfs
Weitere Highlights:
- Offene/kostenlose Modellgewichte und Code
- Lizenz erlaubt Feinabstimmung, Modelldestillation und beliebige Bereitstellung
- Llama Stack API für einfache Integration
- Unterstützung für die Koordination mehrerer Komponenten, einschließlich externer Werkzeuge
Meta verbietet nicht mehr die Verwendung von Llama 3 zur Verbesserung anderer Modelle, was eine offenere Haltung zeigt. Diese Veröffentlichung markiert den ersten Moment, in dem Open-Source-Großmodelle die Leistung von geschlossenen Modellen erreichen und leitet eine neue Ära ein, die von Open Source angeführt wird.