Llama 3.1 ist Berichten zufolge durchgesickert, einschließlich Benchmark-Ergebnissen für Modelle mit 8B, 70B und 405B Parametern. Selbst die 70B-Version übertrifft GPT-4o bei mehreren Benchmarks und markiert damit das erste Mal, dass ein Open-Source-Modell geschlossene Modelle wie GPT-4o und Claude Sonnet 3.5 bei mehreren Benchmarks übertroffen hat.
Wichtige Details aus der durchgesickerten Modellkarte:
- Trainiert mit über 15 Billionen Tokens öffentlich verfügbarer Daten bis Dezember 2023
- Feinabstimmungsdaten umfassen öffentliche Anweisungsdatensätze und 15 Millionen synthetische Proben
- Unterstützt Englisch, Französisch, Deutsch, Hindi, Italienisch, Portugiesisch, Spanisch und Thai
Die Modelle haben Berichten zufolge eine Kontextlänge von 128k und verwenden gruppierte Abfrage-Aufmerksamkeit für verbesserte Inferenz-Skalierbarkeit.
Beabsichtigte Verwendungen umfassen mehrsprachige kommerzielle Anwendungen und Forschung. Die anweisungsoptimierten Modelle sind für assistentenähnlichen Chat optimiert, während vortrainierte Modelle für verschiedene natürliche Sprachgenerierungsaufgaben angepasst werden können.
Trainingsinfrastruktur:
- Benutzerdefinierte Trainingsbibliothek und Metas GPU-Cluster
- 39,3 Millionen GPU-Stunden auf H100-80GB-Hardware
- Geschätzte 11.390 Tonnen CO2e-Emissionen (0 Tonnen marktbasiert aufgrund der Nutzung erneuerbarer Energien)
Benchmark-Ergebnisse werden für verschiedene Aufgaben berichtet, wobei Llama 3.1-Modelle viele offene und geschlossene Chat-Modelle übertreffen.
Sicherheitsüberlegungen:
- Mehrstufiger Datenerfassungsansatz, der von Menschen generierte und synthetische Daten kombiniert
- LLM-basierte Klassifikatoren zur Qualitätskontrolle
- Fokus auf die Reduzierung von Modellverweigerungen und Verweigerungston
- Adversariale Prompts in Sicherheitsdaten integriert
- Vorgesehen für den Einsatz als Teil eines größeren KI-Systems mit zusätzlichen Schutzmaßnahmen
Entwickler sollten systemweite Sicherheitsmaßnahmen implementieren, wenn sie Agentensysteme aufbauen, insbesondere bei der Nutzung neuer Funktionen wie längeren Kontextfenstern, mehrsprachigen Fähigkeiten und Integrationen von Drittanbieter-Tools.