Meta a officiellement lancé Llama 3.1, comprenant des modèles de trois tailles : 8B, 70B et 405B, avec une longueur de contexte maximale augmentée à 128k. Les principales caractéristiques incluent :
-
La version 405B est l'un des plus grands modèles open source à ce jour, surpassant les performances des meilleurs modèles d'IA existants.
-
Introduction d'une fenêtre de contexte plus longue (jusqu'à 128K tokens), capable de gérer des tâches et des conversations plus complexes.
-
Prise en charge des entrées et sorties multilingues, améliorant la polyvalence et l'applicabilité.
-
Amélioration des capacités d'inférence, en particulier dans la résolution de problèmes mathématiques complexes et la génération de contenu en temps réel.
Meta affirme que l'ère où les modèles de langage open source étaient en retard par rapport aux modèles propriétaires touche à sa fin, et que Llama 3.1 ouvre une nouvelle ère dirigée par l'open source. La version 405B est désormais comparable en performance à GPT-4 et Claude 3.
En termes d'architecture, Llama 3.1 a été entraîné sur plus de 15 billions de tokens de données, utilisant plus de 16 000 GPU H100. Pour assurer stabilité et commodité, il utilise une architecture Transformer standard à décodeur unique plutôt qu'une architecture MoE.
L'équipe de recherche a mis en œuvre une méthode d'entraînement itératif post-formation, améliorant les fonctionnalités du modèle par un ajustement fin supervisé et une optimisation directe des préférences. Ils explorent également l'utilisation du modèle 405B comme "modèle enseignant" pour les modèles plus petits.
Meta a également publié un système de référence complet comprenant plusieurs applications de démonstration et de nouveaux composants, tels que Llama Guard 3 et Prompt Guard. Ils ont proposé une interface standardisée "Llama Stack" pour simplifier la construction de composants de chaîne d'outils et d'applications.
Selon les tests de référence, la version 405B est comparable ou légèrement supérieure aux modèles propriétaires comme GPT-4 dans plusieurs tests. Les versions 8B et 70B surpassent également significativement les autres modèles open source de taille similaire.