Meta-Wissenschaftler enthüllen den Trainingsprozess von Llama 3.1, Entwicklung von Llama 4 beginnt

Meta-Forscher Thomas Scialom diskutiert das Llama 3.1-Modell und seine Entwicklungsperspektiven.

Llama 3.1 Entwicklungsansatz

Wie wird die Parametergröße bestimmt

  • Berücksichtigung verschiedener Faktoren wie Skalierungsgesetze, Trainingszeit und GPU-Hardware-Beschränkungen
  • Betrachtung nicht nur der eigenen Hardware von Meta, sondern auch der Situation in der gesamten KI-Gemeinschaft
  • Quantisierungstechniken verändern das Verhältnis von Inferenz- zu Trainings-/Feinabstimmungskosten
  • Unter den bestehenden Rechenleistungs- und Einschränkungsbedingungen wurde ein Gleichgewichtspunkt von 405B gefunden
  • Ziel ist es, ein Open-Source-Modell auf Augenhöhe mit GPT-4 zu entwickeln

Neubewertung des Skalierungsgesetzes

  • Traditionelle Skalierungsgesetze konzentrieren sich auf die Dimensionen von Modellgewichten und Trainingsmenge
  • Chinchilla betont die Bedeutung der Gesamtmenge an Trainings-Tokens
  • Meta entschied sich für eine Erhöhung der Trainings-Token-Anzahl und -Dauer, um das Modell "überzutrainieren"
  • Dies entspricht nicht dem Chinchilla-Gesetz, kann aber zu besserer Inferenzleistung führen

Modellarchitektur

  • Im Vergleich zu Llama 2 gab es wenig Änderungen in der Architektur, hauptsächlich Erweiterungen im Datenumfang und der Qualität
  • Zukünftig könnten mehr architektonische Verbesserungen kommen, nicht beschränkt auf Transformer
  • Derzeit mangelt es der Transformer-Architektur noch an Flexibilität
  • Erforschung der MoE-Architektur läuft

Über synthetische Daten

  • Im öffentlichen Internet gibt es viele minderwertige Texte
  • Verwendung von Llama als Klassifikator zur Filterung hochwertiger Tokens
  • Llama 3 verwendet nach dem Training ausschließlich synthetische Daten von Llama 2
  • Positive Aussichten für synthetische Daten

Bewertung und Verbesserung von LLMs

  • Nachtraining zur Verbesserung von Benchmark-Scores birgt Überanpassungsrisiken
  • Die Bewertung von Sprachmodellen ist ein schwieriges Problem
  • Verschiedene Bewertungsmethoden wurden getestet, wie Belohnungsmodelle und Model-as-a-Judge
  • Mehrfach-RLHF ist eine gute Methode zum Vergleich von Modellen

Llama 4 und Agent

  • Meta begann im Juni mit dem Training des Llama 4 Modells
  • Schwerpunkt könnte auf Agent-Technologie liegen
  • Einige Arbeiten zu Agent-Tools wie Toolformer wurden bereits durchgeführt
  • Exzellente Anweisungsmodelle sind die Grundlage für die Erweiterung von Agent-Fähigkeiten
  • Der von Meta veröffentlichte GAIA-Benchmark bewertet die Fähigkeit, reale Probleme zu lösen
  • Die verschiedenen Fähigkeiten von Agenten hängen eng mit dem Intelligenzniveau des Modells zusammen

Originallink