Annonce fracassante : Le modèle open source Llama 3.1 ouvre une nouvelle ère d'IA pour tous

Utilisation de 16000 GPU H100, entraînement basé sur 150 milliards de tokens.

01. Le modèle open source 405B rivalise avec GPT-4o, 25 partenaires sont prêts

Meta a évalué les performances sur plus de 150 jeux de données de référence, Llama 3.1 405B est comparable à GPT-4o, Claude 3.5 Sonnet et Gemini Ultra dans une série de tâches telles que le sens commun, l'actionnabilité, les mathématiques, l'utilisation d'outils et la traduction multilingue.

Dans des scénarios réels, Llama 3.1 405B a été comparé à une évaluation humaine, surpassant globalement GPT-4o et Claude 3.5 Sonnet.

Les modèles Llama 3.1 8B et 70B mis à niveau offrent également de meilleures performances par rapport aux modèles de même taille, ces modèles plus petits prenant en charge la même fenêtre de contexte de 128K tokens, le multilinguisme, l'inférence améliorée et l'utilisation d'outils de pointe pour permettre des applications plus avancées.

Meta a mis à jour sa licence, permettant aux développeurs d'utiliser pour la première fois la sortie des modèles Llama, y compris l'échelle de 405B paramètres, pour améliorer d'autres modèles.

Parallèlement, l'écosystème open source de Meta s'est encore élargi, avec plus de 25 entreprises lançant de nouveaux modèles Llama 3.1.

Parmi elles, Amazon Web Services, Databricks et NVIDIA lancent une gamme complète de services pour permettre aux développeurs d'affiner et d'entraîner leurs propres modèles. Des startups de puces AI comme Groq ont construit des services d'inférence à faible latence et à faible coût pour tous les nouveaux modèles lancés par Meta cette fois-ci.

Ces modèles seront également disponibles sur les principales plateformes cloud telles qu'Amazon Web Services, Microsoft Azure, Google Cloud et Oracle.

Des entreprises comme Scale AI, Dell et Deloitte sont prêtes à aider les entreprises à adopter les modèles Llama et à entraîner des modèles personnalisés avec leurs propres données.

Llama 3.1 405B n'est pas seulement le modèle open source le plus puissant, il a également le potentiel de devenir le modèle le plus puissant, réduisant encore une fois considérablement l'écart entre l'open source et le propriétaire.

02. Pile d'entraînement entièrement optimisée, axée sur l'évolutivité du modèle

Pour pouvoir entraîner le modèle sur 15 billions de tokens tout en obtenant les effets souhaités par les chercheurs dans un délai raisonnable, Meta a entièrement optimisé la pile d'entraînement.

Pour résoudre ces défis, Meta a choisi de se concentrer sur le maintien de l'évolutivité du processus de développement du modèle et sur des stratégies plus directes :

  1. Les chercheurs ont choisi l'architecture standard du modèle Transformer décodeur uniquement avec des ajustements mineurs, plutôt que d'adopter le modèle MoE (Mixture of Experts), afin de maximiser la stabilité de l'entraînement.

  2. Les chercheurs ont adopté une procédure itérative post-entraînement, utilisant à chaque tour le fine-tuning supervisé et l'optimisation directe des préférences. Cela permet au modèle de créer des données synthétiques de la plus haute qualité pour chaque tour et d'améliorer les performances de chaque capacité.

Par rapport aux précédents modèles de la série Llama, Meta a amélioré la quantité et la qualité des données utilisées avant et après l'entraînement. Ces améliorations comprennent le développement de pipelines de prétraitement et de gestion plus soigneux pour les données pré-entraînement, le développement d'une assurance qualité plus rigoureuse et des méthodes de filtrage pour les données post-entraînement.

Comme prévu par les lois d'échelle des grands modèles de langage, le nouveau modèle phare de Meta surpasse les modèles plus petits entraînés avec la même stratégie. Meta a également utilisé le modèle de 405B paramètres pour améliorer la qualité d'entraînement de ses modèles plus petits.

En même temps, pour supporter l'inférence à grande échelle du modèle de 405B paramètres, les chercheurs ont quantifié le modèle de BF16 à FP8, réduisant efficacement les exigences de calcul nécessaires et permettant au modèle de fonctionner dans un seul nœud de serveur.

En termes de fine-tuning des instructions et du chat, les chercheurs ont généré le modèle final en effectuant plusieurs tours d'alignement sur le modèle pré-entraîné, chaque tour impliquant un fine-tuning supervisé (SFT), un échantillonnage par rejet (RS) et une optimisation directe des préférences (DPO), utilisant la génération de données synthétiques pour produire la majorité des exemples SFT afin de générer des données synthétiques de meilleure qualité dans toutes les fonctionnalités.

De plus, Meta a adopté diverses techniques de traitement des données pour filtrer ces données synthétiques à la plus haute qualité, permettant au nouveau modèle d'augmenter la quantité de données de fine-tuning à travers les fonctionnalités.

En termes de données, les chercheurs ont également soigneusement équilibré les données pour générer un modèle de haute qualité avec toutes les fonctionnalités. Par exemple, garantir la qualité du modèle sur des benchmarks de contexte court lui permet de s'étendre à une longueur de contexte de 128K.

De plus, Meta a annoncé le lancement d'un système Llama complet. Ce système, en plus de couvrir les modèles Llama, implique la coordination de plusieurs composants et l'appel d'outils externes, aidant ainsi les développeurs à développer des produits personnalisés plus puissants que le modèle de base.

Le système Llama couvrira une série de nouveaux composants, y compris de nouveaux outils de sécurité open source tels que Llama Guard 3 (modèle de sécurité multilingue) et Prompt Guard (filtre d'injection de prompt). Pour connecter les composants dispersés, Meta a également publié une demande de commentaires sur l'API Llama Stack, une interface standard pour permettre aux projets tiers d'utiliser plus facilement les modèles Llama.

Pour les développeurs ordinaires, l'utilisation d'un modèle à l'échelle de 405B reste un défi, nécessitant des ressources de calcul et une expertise considérables.

Basé sur le système Llama, le développement de l'IA générative n'est pas seulement une question de prompt du modèle, tout le monde devrait pouvoir utiliser le modèle 405B pour accomplir plus de tâches, y compris l'inférence en temps réel et par lots, le fine-tuning supervisé, l'évaluation du modèle pour des applications spécifiques, le pré-entraînement continu, la génération augmentée par récupération (RAG), les appels de fonction, la génération de données synthétiques, etc.

C'est le plus grand modèle lancé par Meta à ce jour, et à l'avenir, il y aura plus de tailles adaptées aux appareils, plus de modes et des mises à jour au niveau des agents.

03. Le grand modèle 405B transforme Meta AI, l'assistant vocal intelligent Quest s'améliore

Maintenant, plusieurs terminaux de Meta, tels que WhatsApp et le chatbot Meta AI, commencent à utiliser Llama 3.1 405B.

Meta AI prend actuellement en charge sept nouvelles langues, et Meta lance cette fois-ci un lot de nouveaux outils créatifs Meta AI, principalement axés sur la génération visuelle, les mathématiques et le codage.

Tout d'abord, en ce qui concerne la génération visuelle, Meta AI lance la fonction de génération d'images "Imagine Me", permettant aux utilisateurs de saisir "imagine-moi" dans le chat Meta AI et d'ajouter des prompts, par exemple "imagine-moi en membre de la famille royale" ou "imagine-moi dans une peinture surréaliste", pour générer des images et les partager avec des amis et la famille.