Le nouveau champion de l'IA open source : Fuite de Llama 3.1 surpassant GPT-4o

Famille Llama 3.1, lancement demain

Selon la fiche technique divulguée, Llama 3.1 sera publié le 23.

La licence est "Licence commerciale personnalisée" et "Licence communautaire Llama 3.1".

Plus précisément, la série Llama 3.1 de modèles de langage multilingues à grande échelle est un ensemble de modèles génératifs pré-entraînés et ajustés par instructions, comprenant des échelles de paramètres de 8B, 70B et 405B.

Les modèles Llama 3.1 textuels ajustés par instructions (8B, 70B, 405B) sont optimisés pour des cas d'utilisation conversationnels multilingues.

En plus de l'anglais, il prend en charge 7 langues dont l'allemand, le français, l'italien, le portugais, l'hindi, l'espagnol et le thaï.

Selon l'introduction, les nouvelles capacités de Llama 3.1 incluent un contexte plus long, la prise en charge d'entrées et de sorties multilingues, et l'intégration avec des outils de développeurs et tiers.

Tests de référence

Un tableau de référence sur GitHub (maintenant 404) montre l'excellente performance de Llama 3.1 dans les tests de référence.

Plus précisément, dans les évaluations de référence des modèles pré-entraînés, Llama 3.1 405B a établi de nouveaux records dans les tâches générales, le raisonnement des connaissances et la compréhension de lecture.

Les améliorations étaient les plus notables dans les sous-références MMLU et SQuAD.

Pendant ce temps, les versions 8B et 70B de Llama 3.1 ont montré de légères améliorations par rapport à Llama 3. Cependant, sur certaines métriques, le Llama 3.1 70B était toujours moins performant que son prédécesseur.

De plus, parmi les modèles ajustés par instructions, Llama 3.1 405B est clairement plus fort que le modèle pré-entraîné. Il surpasse significativement les versions affinées 8B et 70B dans le raisonnement, le codage, les mathématiques, l'utilisation d'outils et les références multilingues.

Les modèles affinés Llama 3.1 8B et 70B montrent également des améliorations substantielles de performance dans plusieurs tâches de capacité.

Certains internautes ont compilé des références d'autres modèles de pointe, montrant par comparaison que Claude 3.5 Sonnet est le champion dans toutes les références.

La version affinée de Llama 3.1 405B ne performe le mieux que dans la référence mathématique MMLU Pro, battant tous les grands modèles avec un score de 73,3%.

De plus, 405B est à égalité avec GPT-4o dans les références GPQA (connaissances et raisonnement professionnels de niveau supérieur), mathématiques, DROP (compréhension de lecture), MGSM (mathématiques multilingues), HumanEval (programmation) et BBH (évaluation des connaissances).

De plus, 405B surpasse significativement le dernier modèle mini GPT-4o.

Llama 3.1 est un modèle de langage autorégressif utilisant une architecture Transformer optimisée. Les versions ajustées utilisent SFT et RLHF pour s'aligner sur les préférences de sécurité humaines.

Pour les modèles de la série Llama 3.1, les comptes de jetons ne se réfèrent qu'aux données de pré-entraînement.

Toutes les versions du modèle utilisent l'attention à requête groupée (GQA) pour améliorer l'évolutivité de l'inférence.

15T jetons de données d'entraînement

Comme Llama 3, Llama 3.1 a été pré-entraîné sur environ 15 billions de jetons provenant de sources publiquement disponibles.

Les données d'affinement comprennent des ensembles d'instructions publiquement disponibles, ainsi que plus de 25 millions d'échantillons synthétiques, avec des données de pré-entraînement coupées en décembre 2023.

Disponible pour un usage commercial et de recherche

Llama 3.1 prend en charge à la fois l'utilisation commerciale et de recherche dans des environnements multilingues.

Les modèles textuels ajustés par instructions conviennent aux assistants de chat, tandis que les modèles pré-entraînés peuvent s'adapter à diverses tâches de génération de langage naturel. La collection de modèles Llama 3.1 prend également en charge l'utilisation de ses sorties de modèle pour améliorer d'autres modèles, y compris la génération de données synthétiques et la distillation de modèles.

Les utilisations qui violent les lois et réglementations, les politiques d'utilisation et la licence communautaire Llama 3.1, ou les utilisations au-delà des langues prises en charge, sont hors de portée.

L'équipe souligne que Llama 3.1 a été entraîné sur un ensemble plus large de langues au-delà des 8 prises en charge. Les développeurs peuvent l'affiner pour une utilisation dans d'autres langues, à condition qu'ils se conforment aux politiques telles que la licence communautaire et assurent une utilisation sûre et responsable.

39,3 millions d'heures GPU d'entraînement

Pour le pré-entraînement, Meta a utilisé des bibliothèques d'entraînement personnalisées, les clusters GPU personnalisés de Meta et l'infrastructure de production. L'affinement, l'annotation et l'évaluation ont également été menés sur l'infrastructure de production.

L'entraînement a cumulativement utilisé 39,3 millions d'heures GPU de temps de calcul, avec H100-80GB (700W TDP) comme type de matériel.

Le temps d'entraînement est le temps GPU total requis pour entraîner chaque modèle, et la consommation d'énergie est la capacité de puissance maximale de chaque dispositif GPU, ajustée pour l'efficacité d'utilisation de l'énergie.