Llama 3.1 Entwicklungsansatz
Wie wird die Parametergröße bestimmt
- Berücksichtigung verschiedener Faktoren wie Skalierungsgesetze, Trainingszeit und GPU-Hardware-Beschränkungen
- Betrachtung nicht nur der eigenen Hardware von Meta, sondern auch der Situation in der gesamten KI-Gemeinschaft
- Quantisierungstechniken verändern das Verhältnis von Inferenz- zu Trainings-/Feinabstimmungskosten
- Unter den bestehenden Rechenleistungs- und Einschränkungsbedingungen wurde ein Gleichgewichtspunkt von 405B gefunden
- Ziel ist es, ein Open-Source-Modell auf Augenhöhe mit GPT-4 zu entwickeln
Neubewertung des Skalierungsgesetzes
- Traditionelle Skalierungsgesetze konzentrieren sich auf die Dimensionen von Modellgewichten und Trainingsmenge
- Chinchilla betont die Bedeutung der Gesamtmenge an Trainings-Tokens
- Meta entschied sich für eine Erhöhung der Trainings-Token-Anzahl und -Dauer, um das Modell "überzutrainieren"
- Dies entspricht nicht dem Chinchilla-Gesetz, kann aber zu besserer Inferenzleistung führen
Modellarchitektur
- Im Vergleich zu Llama 2 gab es wenig Änderungen in der Architektur, hauptsächlich Erweiterungen im Datenumfang und der Qualität
- Zukünftig könnten mehr architektonische Verbesserungen kommen, nicht beschränkt auf Transformer
- Derzeit mangelt es der Transformer-Architektur noch an Flexibilität
- Erforschung der MoE-Architektur läuft
Über synthetische Daten
- Im öffentlichen Internet gibt es viele minderwertige Texte
- Verwendung von Llama als Klassifikator zur Filterung hochwertiger Tokens
- Llama 3 verwendet nach dem Training ausschließlich synthetische Daten von Llama 2
- Positive Aussichten für synthetische Daten
Bewertung und Verbesserung von LLMs
- Nachtraining zur Verbesserung von Benchmark-Scores birgt Überanpassungsrisiken
- Die Bewertung von Sprachmodellen ist ein schwieriges Problem
- Verschiedene Bewertungsmethoden wurden getestet, wie Belohnungsmodelle und Model-as-a-Judge
- Mehrfach-RLHF ist eine gute Methode zum Vergleich von Modellen
Llama 4 und Agent
- Meta begann im Juni mit dem Training des Llama 4 Modells
- Schwerpunkt könnte auf Agent-Technologie liegen
- Einige Arbeiten zu Agent-Tools wie Toolformer wurden bereits durchgeführt
- Exzellente Anweisungsmodelle sind die Grundlage für die Erweiterung von Agent-Fähigkeiten
- Der von Meta veröffentlichte GAIA-Benchmark bewertet die Fähigkeit, reale Probleme zu lösen
- Die verschiedenen Fähigkeiten von Agenten hängen eng mit dem Intelligenzniveau des Modells zusammen