Réflexions sur le développement de Llama 3.1
Comment décider de l'échelle des paramètres
- Nécessité de prendre en compte plusieurs facteurs tels que la loi d'échelle, le temps d'entraînement, les contraintes matérielles des GPU, etc.
- Considération non seulement du matériel de Meta, mais aussi de la situation de l'ensemble de la communauté IA
- L'application des techniques de quantification a modifié le rapport entre les coûts d'inférence et d'entraînement/ajustement
- Un point d'équilibre de 405B a été trouvé dans les conditions de puissance de calcul et de contraintes existantes
- L'objectif est de créer un modèle open source comparable à GPT-4
Réexamen de la loi d'échelle
- La loi d'échelle traditionnelle se concentre sur deux dimensions : les poids du modèle et la quantité d'entraînement
- Chinchilla souligne l'importance de la quantité totale de tokens dans les données d'entraînement
- Meta a choisi d'augmenter le nombre de tokens d'entraînement et la durée, permettant au modèle d'être "sur-entraîné"
- Cela ne correspond pas à la loi de Chinchilla, mais peut obtenir de meilleures performances d'inférence
Architecture du modèle
- Peu de changements par rapport à l'architecture de Llama 2, principalement une expansion de l'échelle et de la qualité des données
- Des améliorations architecturales futures sont possibles, pas limitées au Transformer
- L'architecture Transformer manque encore de flexibilité
- Exploration de l'architecture MoE en cours
À propos des données synthétiques
- Il existe une grande quantité de textes de faible qualité sur l'internet public
- Utilisation de Llama comme classificateur pour filtrer les tokens de haute qualité
- L'entraînement ultérieur de Llama 3 utilise entièrement des données synthétiques obtenues de Llama 2
- Perspectives prometteuses pour les données synthétiques
Évaluation et amélioration des LLM
- Risque de surapprentissage lors de l'amélioration post-entraînement basée sur les scores de référence
- L'évaluation des modèles de langage est un problème difficile
- Diverses méthodes d'évaluation ont été testées, comme les modèles de récompense, le model-as-a-judge, etc.
- Le RLHF multi-tours est une bonne méthode pour comparer les modèles
Llama 4 et Agent
- Meta a commencé l'entraînement du modèle Llama 4 en juin
- L'accent pourrait être mis sur la technologie des agents
- Certains travaux ont déjà été réalisés sur des outils d'agent comme Toolformer
- Un excellent modèle d'instructions est la base de l'extension des capacités des agents
- Le benchmark GAIA publié par Meta est utilisé pour évaluer la capacité à résoudre des problèmes réels
- Les diverses capacités des agents sont étroitement liées au niveau d'intelligence du modèle
Lien vers l'article original