Les scientifiques de Meta dévoilent le processus d'entraînement de Llama 3.1, le développement de Llama 4 est lancé

Les chercheurs de Meta Thomas Scialom discutent du modèle Llama 3.1 et de ses perspectives de développement.

Réflexions sur le développement de Llama 3.1

Comment décider de l'échelle des paramètres

  • Nécessité de prendre en compte plusieurs facteurs tels que la loi d'échelle, le temps d'entraînement, les contraintes matérielles des GPU, etc.
  • Considération non seulement du matériel de Meta, mais aussi de la situation de l'ensemble de la communauté IA
  • L'application des techniques de quantification a modifié le rapport entre les coûts d'inférence et d'entraînement/ajustement
  • Un point d'équilibre de 405B a été trouvé dans les conditions de puissance de calcul et de contraintes existantes
  • L'objectif est de créer un modèle open source comparable à GPT-4

Réexamen de la loi d'échelle

  • La loi d'échelle traditionnelle se concentre sur deux dimensions : les poids du modèle et la quantité d'entraînement
  • Chinchilla souligne l'importance de la quantité totale de tokens dans les données d'entraînement
  • Meta a choisi d'augmenter le nombre de tokens d'entraînement et la durée, permettant au modèle d'être "sur-entraîné"
  • Cela ne correspond pas à la loi de Chinchilla, mais peut obtenir de meilleures performances d'inférence

Architecture du modèle

  • Peu de changements par rapport à l'architecture de Llama 2, principalement une expansion de l'échelle et de la qualité des données
  • Des améliorations architecturales futures sont possibles, pas limitées au Transformer
  • L'architecture Transformer manque encore de flexibilité
  • Exploration de l'architecture MoE en cours

À propos des données synthétiques

  • Il existe une grande quantité de textes de faible qualité sur l'internet public
  • Utilisation de Llama comme classificateur pour filtrer les tokens de haute qualité
  • L'entraînement ultérieur de Llama 3 utilise entièrement des données synthétiques obtenues de Llama 2
  • Perspectives prometteuses pour les données synthétiques

Évaluation et amélioration des LLM

  • Risque de surapprentissage lors de l'amélioration post-entraînement basée sur les scores de référence
  • L'évaluation des modèles de langage est un problème difficile
  • Diverses méthodes d'évaluation ont été testées, comme les modèles de récompense, le model-as-a-judge, etc.
  • Le RLHF multi-tours est une bonne méthode pour comparer les modèles

Llama 4 et Agent

  • Meta a commencé l'entraînement du modèle Llama 4 en juin
  • L'accent pourrait être mis sur la technologie des agents
  • Certains travaux ont déjà été réalisés sur des outils d'agent comme Toolformer
  • Un excellent modèle d'instructions est la base de l'extension des capacités des agents
  • Le benchmark GAIA publié par Meta est utilisé pour évaluer la capacité à résoudre des problèmes réels
  • Les diverses capacités des agents sont étroitement liées au niveau d'intelligence du modèle

Lien vers l'article original