Llama 3.1 405B : Le géant open source de l'IA qui surpasse GPT-4 ouvre une nouvelle ère

Meta vient de lancer la dernière version du modèle Llama comme prévu - Llama 3.1.

Meta a publié le modèle Llama 3.1, comprenant trois versions de tailles différentes : 8B, 70B et 405B. Les principales caractéristiques sont les suivantes :

  • La longueur maximale du contexte a été augmentée à 128K
  • Prise en charge multilingue
  • Excellentes performances en génération de code
  • Capacités de raisonnement complexes

D'après les résultats des tests de référence :

  • Llama 3.1 405B surpasse GPT-4 0125, et rivalise avec GPT-4o et Claude 3.5
  • Llama 3.1 8B surpasse Gemma 2 9B 1T et Mistral 7B Instruct
  • Llama 3.1 70B surpasse GPT-3.5 Turbo

Détails de l'entraînement de Llama 3.1 405B :

  • Entraîné sur plus de 15 billions de tokens
  • Entraîné sur plus de 16000 GPU H100
  • Utilisation d'un programme d'entraînement itératif post-entraînement, combinant un ajustement fin supervisé et une optimisation directe des préférences
  • Amélioration de la quantité et de la qualité des données de pré-entraînement et de post-entraînement
  • Quantification de 16 bits à 8 bits, réduisant les besoins en ressources de calcul

Autres points forts :

  • Poids du modèle et code ouverts/gratuits
  • La licence permet aux utilisateurs d'effectuer un ajustement fin, une distillation du modèle et un déploiement arbitraire
  • Fournit l'API Llama Stack pour une intégration facile
  • Prend en charge la coordination de plusieurs composants, y compris l'appel d'outils externes

Meta ne interdit plus l'utilisation de Llama 3 pour améliorer d'autres modèles, reflétant une attitude plus ouverte. Cette sortie marque la première fois que les grands modèles open source égalent les performances des grands modèles propriétaires, ouvrant une nouvelle ère menée par l'open source.

Lien de téléchargement du modèle

Rapport d'entraînement de 92 pages