Llama 3.1's Leistung ist vergleichbar mit OpenAI's GPT-4o!
Einige KI-Blogger lobten, dass die Veröffentlichung von Llama 3.1 ein weiterer Tag sein würde, der das Schicksal der KI-Welt verändert.
Die durchgesickerten Benchmark-Ergebnisse zeigen, dass Llama 3.1 in den Größen 8B, 70B und 405B erhältlich ist. Selbst das 70B-Modell mit der geringsten Parameteranzahl schneidet in vielen Aspekten genauso gut ab wie GPT-4o.
Einige Internetnutzer wiesen darauf hin, dass basierend auf diesem Benchmark Llama 3.1 405B ≈ GPT-4o ist, während Llama 3.1 70B das erste leichtgewichtige Modell werden würde, das OpenAI schlägt, ein GPT-4o mini.
Viele, die das Modell heruntergeladen haben, um es auszuprobieren, stellten jedoch fest, dass das durchgesickerte Llama 3.1 405B eine Gesamtdateigröße von etwa 820 GB hat und fast dreimal so viel Speicher wie Llama 2 (etwa 280 GB) benötigt, um die volle Präzision zu erhalten.
Das bedeutet, dass es für einzelne Entwickler schwierig sein wird, Llama 3.1 auf ihren eigenen Computern laufen zu lassen, es sei denn, sie haben zu Hause ein Mining-Rig und können sich genügend GPUs leisten. Einige Internetnutzer vermuten, dass Llama 3.1 nicht für Einzelpersonen, sondern für Institutionen und Unternehmen gedacht ist.
Das noch nicht angekündigte Llama 3.1 wurde auch mit etwas kaltem Wasser übergossen. Viele Internetnutzer beschwerten sich, dass die GPU-Anforderungen von Llama 3.1 zu hoch seien, was OpenAI's GPT-4o mini im Vergleich kostengünstiger erscheinen lässt.
Laut den durchgesickerten Modellinformationen hat Llama 3.1 im Vergleich zu dem am 19. April 2024 veröffentlichten Llama 3 mehr Iterationen in der Funktionalität, einschließlich längerer Kontextfenster, mehrsprachiger Ein- und Ausgabe und möglicher Integration mit Entwicklern und Drittanbieter-Tools.
Trainingsdaten: Llama 3.1 wurde mit 15T+ Tokens aus öffentlichen Quellen trainiert, wobei die Feinabstimmungsdaten öffentlich verfügbare Anweisungs-Tuning-Datensätze (im Gegensatz zu Llama-3!) und über 25 Millionen synthetisch generierte Beispiele umfassen.
Mehrsprachige Konversation: Llama 3.1 unterstützt 8 Sprachen: Englisch, Deutsch, Französisch, Italienisch, Portugiesisch, Hindi, Spanisch und Thai. Während Chinesisch leider nicht enthalten ist, können Entwickler das Llama 3.1-Modell für Sprachen jenseits der 8 unterstützten Sprachen fein abstimmen.
Kontextfenster: Die Kontextlänge für jede Version wurde von 8k auf 128k erweitert, was in etwa bedeutet, dass das Modell etwa 96.000 Wörter auf einmal erinnern, verstehen und verarbeiten kann, fast ein ganzes Original-Harry-Potter-Buch.
Viele Internetnutzer sind begierig darauf, Llama 3.1 gegen seine "Vorgänger" antreten zu lassen, und stellen fest, dass sich nicht nur die Metriken deutlich verbessert haben, sondern auch Rechenressourcen eingespart wurden.
Basierend auf Tests von Internetnutzern zeigt Llama 3.1 im Vergleich zu Llama 3 deutliche Verbesserungen in den Fähigkeiten. Insbesondere haben sich die human_eval und truthfulqa_mc1 Fähigkeiten merklich verbessert, was stärkere Codegenerierungsfähigkeiten und wahrheitsgetreuere Fragebeantwortung bedeutet.
Gleichzeitig zeigt das Instruct-Modell von Llama 3 deutliche Verbesserungen gegenüber dem Basismodell in Metriken wie Prompt-Lernen, kontextuelles Lernen und effiziente Parameterfeinjustierung.
Dies ist nachvollziehbar, da Basismodelle typischerweise nicht für spezifische Aufgaben feinabgestimmt sind, während Instruct-Modelle speziell darauf trainiert sind, Anweisungen zu befolgen oder spezifische Aufgaben zu erfüllen. Normalerweise schneiden Instruct-Modelle bei Metriken besser ab.
Dies macht die Menschen noch gespannter auf die offizielle Veröffentlichung von Llama 3.1. Die aktuellen Tests des durchgesickerten Llama 3.1-Modells zielen nur auf das Basismodell ab, während das Instruct-Modell möglicherweise noch besser abschneiden könnte!
Überraschenderweise entspricht oder übertrifft in den Benchmark-Ergebnissen das Llama 3.1 70B-Modell GPT-4o, während das Llama 3.1 8B-Modell nahe an das Llama 3 70B-Modell herankommt. Einige Internetnutzer vermuten, dass hier möglicherweise Modell-Destillationstechniken verwendet wurden, bei denen die 8B- und 70B-Modelle vereinfachte Versionen sind, die vom größten 405B-Modell abgeleitet wurden, wodurch das große Modell "kleiner" gemacht wurde.
Modelldestillation kann als Schüler gesehen werden, die von Lehrern lernen. Das große und leistungsfähige Modell (Lehrermodell) ist der Lehrer, während das kleinere und einfachere Modell (Schülermodell) der Schüler ist. Das Schülermodell lernt, indem es das Lehrermodell "imitiert" und versucht, seine Ausgabe so nah wie möglich an die Ausgabe des Lehrermodells heranzubringen, wodurch es ähnliches Wissen und ähnliche Fähigkeiten erlernt.
Nach dem Destillationstraining kann das Schülermodell die Modellgröße und den Bedarf an Rechenressourcen reduzieren und gleichzeitig eine hohe Leistung und vergleichbare Genauigkeit beibehalten.
Es ist noch unbekannt, ob Llama 3.1 wie erhofft Open Source sein wird. Aber selbst wenn es Open Source ist, werden Sie immer noch tiefe Taschen brauchen, um sich die Nutzung von Llama 3.1 leisten zu können.
Das grundlegende Eintrittsticket, um Llama 3.1 laufen zu lassen, sind genügend GPUs.
Die durchgesickerten Dateien zeigen, dass die Trainingszeit für Llama 3.1 405B auf H100-80GB-Hardware 30,84 Millionen GPU-Stunden beträgt. Das bedeutet, dass unter der Annahme, dass nur eine H100-80GB pro Stunde verwendet wird, das Ausführen von Llama 3.1 405B 30,84 Millionen Stunden dauern würde - es würde 3500 Jahre dauern, bis das Modell läuft!
Für eine private Bereitstellung müsste ein Unternehmen, das Llama 3.1 405B innerhalb eines Monats erfolgreich ausführen möchte, mindestens 43.000 H100-80GBs vorrätig haben. Bei 40.000 $ pro H100 ### wäre das Eintrittsticket für die Nutzung der Rechenleistung von Llama 3.1 405B mit 17 Milliarden $ so hoch wie 125 Milliarden RMB.
Die gute Nachricht ist, dass die Inferenzkosten von Llama 3.1 möglicherweise günstiger sein könnten.
Laut Vorhersagen von Artificial Analysis werden die Kosten für die Verarbeitung von 1 Million Tokens mit Llama 3.1 405B günstiger sein als bei ähnlich qualitativ hochwertigen Spitzenmodellen (GPT-4o und Claude 3.5 Sonnet) und bieten eine bessere Kosteneffizienz.
Darüber hinaus vermuten einige Internetnutzer aus dem Quellcode, dass Llama 3.1 405B möglicherweise ein kostenpflichtiges Mitgliedschaftsprodukt werden könnte. Die tatsächliche Situation bleibt jedoch bis zur offiziellen Veröffentlichung abzuwarten.