Llama 3.1 405B : Le géant open source de l'IA qui surpasse GPT-4 ouvre une nouvelle ère

Meta a publié le modèle Llama 3.1, comprenant trois versions de tailles différentes : 8B, 70B et 405B. Les principales caractéristiques sont les suivantes :

La longueur maximale du contexte a été augmentée à 128K
Prise en charge multilingue
Excellentes performances en génération de code
Capacités de raisonnement complexes

D'après les résultats des tests de référence :

Llama 3.1 405B surpasse GPT-4 0125, et rivalise avec GPT-4o et Claude 3.5
Llama 3.1 8B surpasse Gemma 2 9B 1T et Mistral 7B Instruct
Llama 3.1 70B surpasse GPT-3.5 Turbo

Détails de l'entraînement de Llama 3.1 405B :

Entraîné sur plus de 15 billions de tokens
Entraîné sur plus de 16000 GPU H100
Utilisation d'un programme d'entraînement itératif post-entraînement, combinant un ajustement fin supervisé et une optimisation directe des préférences
Amélioration de la quantité et de la qualité des données de pré-entraînement et de post-entraînement
Quantification de 16 bits à 8 bits, réduisant les besoins en ressources de calcul

Autres points forts :

Poids du modèle et code ouverts/gratuits
La licence permet aux utilisateurs d'effectuer un ajustement fin, une distillation du modèle et un déploiement arbitraire
Fournit l'API Llama Stack pour une intégration facile
Prend en charge la coordination de plusieurs composants, y compris l'appel d'outils externes

Meta ne interdit plus l'utilisation de Llama 3 pour améliorer d'autres modèles, reflétant une attitude plus ouverte. Cette sortie marque la première fois que les grands modèles open source égalent les performances des grands modèles propriétaires, ouvrant une nouvelle ère menée par l'open source.

Lien de téléchargement du modèle

Rapport d'entraînement de 92 pages

Llama 3.1 405B : Le géant open source de l'IA qui surpasse GPT-4 ouvre une nouvelle ère

Meta vient de lancer la dernière version du modèle Llama comme prévu - Llama 3.1.