Les scientifiques de Meta dévoilent le processus d'entraînement de Llama 3.1, le développement de Llama 4 est lancé

Réflexions sur le développement de Llama 3.1

Nécessité de prendre en compte plusieurs facteurs tels que la loi d'échelle, le temps d'entraînement, les contraintes matérielles des GPU, etc.
Considération non seulement du matériel de Meta, mais aussi de la situation de l'ensemble de la communauté IA
L'application des techniques de quantification a modifié le rapport entre les coûts d'inférence et d'entraînement/ajustement
Un point d'équilibre de 405B a été trouvé dans les conditions de puissance de calcul et de contraintes existantes
L'objectif est de créer un modèle open source comparable à GPT-4

La loi d'échelle traditionnelle se concentre sur deux dimensions : les poids du modèle et la quantité d'entraînement
Chinchilla souligne l'importance de la quantité totale de tokens dans les données d'entraînement
Meta a choisi d'augmenter le nombre de tokens d'entraînement et la durée, permettant au modèle d'être "sur-entraîné"
Cela ne correspond pas à la loi de Chinchilla, mais peut obtenir de meilleures performances d'inférence

Peu de changements par rapport à l'architecture de Llama 2, principalement une expansion de l'échelle et de la qualité des données
Des améliorations architecturales futures sont possibles, pas limitées au Transformer
L'architecture Transformer manque encore de flexibilité
Exploration de l'architecture MoE en cours

Il existe une grande quantité de textes de faible qualité sur l'internet public
Utilisation de Llama comme classificateur pour filtrer les tokens de haute qualité
L'entraînement ultérieur de Llama 3 utilise entièrement des données synthétiques obtenues de Llama 2
Perspectives prometteuses pour les données synthétiques

Risque de surapprentissage lors de l'amélioration post-entraînement basée sur les scores de référence
L'évaluation des modèles de langage est un problème difficile
Diverses méthodes d'évaluation ont été testées, comme les modèles de récompense, le model-as-a-judge, etc.
Le RLHF multi-tours est une bonne méthode pour comparer les modèles

Meta a commencé l'entraînement du modèle Llama 4 en juin
L'accent pourrait être mis sur la technologie des agents
Certains travaux ont déjà été réalisés sur des outils d'agent comme Toolformer
Un excellent modèle d'instructions est la base de l'extension des capacités des agents
Le benchmark GAIA publié par Meta est utilisé pour évaluer la capacité à résoudre des problèmes réels
Les diverses capacités des agents sont étroitement liées au niveau d'intelligence du modèle