Fuite de Llama 3.1 : performances supérieures à GPT-4, coût seulement un dixième ?

Les performances de Llama 3.1 sont comparables à celles de GPT-4o d'OpenAI !

Certains blogueurs IA ont salué la sortie de Llama 3.1 comme un autre jour qui change le destin du monde de l'IA.

Les résultats de référence divulgués montrent que Llama 3.1 existe en tailles de 8B, 70B et 405B. Même le modèle 70B avec le plus petit nombre de paramètres rivalise avec GPT-4o dans de nombreux aspects.

Certains internautes ont souligné que selon ce benchmark, Llama 3.1 405B ≈ GPT-4o, tandis que Llama 3.1 70B deviendrait le premier modèle léger à battre OpenAI, un mini GPT-4o.

Cependant, beaucoup de ceux qui ont téléchargé le modèle pour l'essayer ont constaté que le Llama 3.1 405B divulgué a une taille totale de fichier d'environ 820 Go, nécessitant près de 3 fois la mémoire de Llama 2 (environ 280 Go) pour conserver une précision totale.

Cela signifie qu'à moins d'avoir un rig de minage à la maison et de pouvoir se permettre suffisamment de GPU, les développeurs individuels auront du mal à faire fonctionner Llama 3.1 sur leurs propres ordinateurs. Certains internautes spéculent que Llama 3.1 n'est pas destiné aux particuliers, mais aux institutions et aux entreprises.

Le Llama 3.1 pas encore annoncé a également été accueilli avec quelques douches froides. De nombreux internautes se sont plaints que les exigences GPU de Llama 3.1 sont trop élevées, rendant le mini GPT-4o d'OpenAI plus rentable en comparaison.

Selon les informations divulguées sur le modèle, Llama 3.1 a plus d'itérations en termes de fonctionnalités par rapport à Llama 3 sorti le 19 avril 2024, y compris des fenêtres de contexte plus longues, une entrée et une sortie multilingues, et une possible intégration avec les développeurs et les outils tiers.

Données d'entraînement : Llama 3.1 a été entraîné sur plus de 15T de tokens provenant de sources publiques, avec des données de réglage fin comprenant des ensembles de données d'instruction publiquement disponibles (contrairement à Llama-3 !) et plus de 25 millions d'exemples générés synthétiquement.

Conversation multilingue : Llama 3.1 prend en charge 8 langues : anglais, allemand, français, italien, portugais, hindi, espagnol et thaï. Bien que le chinois ne soit malheureusement pas inclus, les développeurs peuvent affiner le modèle Llama 3.1 pour des langues au-delà des 8 prises en charge.

Fenêtre de contexte : La longueur de contexte pour chaque version a été étendue de 8k à 128k, ce qui équivaut à peu près à la capacité du modèle à se souvenir, comprendre et traiter environ 96 000 mots à la fois, presque un livre Harry Potter original entier.

De nombreux internautes sont impatients d'opposer Llama 3.1 à ses "prédécesseurs", constatant que non seulement les métriques se sont considérablement améliorées, mais que les ressources de calcul ont également été économisées.

Selon les tests des internautes, Llama 3.1 montre des améliorations significatives des capacités par rapport à Llama 3. En particulier, les capacités human_eval et truthfulqa_mc1 se sont nettement améliorées, ce qui signifie de meilleures capacités de génération de code et des réponses aux questions plus véridiques.

En même temps, le modèle instruct de Llama 3 montre des améliorations claires par rapport au modèle de base dans des métriques comme l'apprentissage par prompt, l'apprentissage contextuel et le réglage fin efficace des paramètres.

Cela est raisonnable, car les modèles de base ne sont généralement pas affinés pour des tâches spécifiques, tandis que les modèles instruct sont spécialement entraînés pour suivre des instructions ou accomplir des tâches spécifiques. Habituellement, les modèles instruct performent mieux sur les métriques.

Cela rend les gens encore plus enthousiastes pour la sortie officielle de Llama 3.1. Les tests actuels du modèle Llama 3.1 divulgué ne ciblent que le modèle de base, tandis que le modèle instruct pourrait être encore plus performant !

Étonnamment, dans les résultats de référence, le modèle Llama 3.1 70B égale ou bat GPT-4o, tandis que le modèle Llama 3.1 8B se comporte presque comme le modèle Llama 3 70B. Certains internautes spéculent que cela pourrait avoir utilisé des techniques de distillation de modèle, où les modèles 8B et 70B sont des versions simplifiées dérivées du plus grand modèle 405B, rendant le grand modèle "plus petit".

La distillation de modèle peut être vue comme des étudiants apprenant d'enseignants. Le modèle grand et puissant (modèle enseignant) est l'enseignant, tandis que le modèle plus petit et plus simple (modèle étudiant) est l'étudiant. Le modèle étudiant apprend en "imitant" le modèle enseignant, essayant de rendre sa sortie aussi proche que possible de celle du modèle enseignant, apprenant ainsi des connaissances et des capacités similaires.

Après l'entraînement par distillation, le modèle étudiant peut réduire la taille du modèle et les besoins en ressources de calcul tout en maintenant des performances élevées et une précision comparable.

On ne sait toujours pas si Llama 3.1 sera open-source comme espéré. Mais même s'il est open-source, vous aurez toujours besoin de poches profondes pour vous permettre d'utiliser Llama 3.1.

Le ticket d'entrée de base pour faire fonctionner Llama 3.1 est suffisamment de GPU.

Les fichiers divulgués montrent que le temps d'entraînement pour Llama 3.1 405B sur du matériel de type H100-80GB est de 30,84M heures GPU. Cela signifie qu'en supposant qu'un seul H100-80GB soit utilisé par heure, l'exécution de Llama 3.1 405B prendrait 30,84M heures - il faudrait 3500 ans pour que le modèle s'exécute !

Pour un déploiement privé, si une entreprise veut réussir à exécuter Llama 3.1 405B en un mois, elle devrait stocker au moins 43 000 H100-80GB. À 40 000 $ par H100, ### le ticket d'entrée pour utiliser la puissance de calcul de Llama 3.1 405B serait aussi élevé que 17 milliards de dollars, équivalent à 125 milliards de RMB.

La bonne nouvelle est que les coûts d'inférence de Llama 3.1 pourraient être moins chers.

Selon les prédictions d'Artificial Analysis, le coût de traitement d'un million de tokens avec Llama 3.1 405B sera moins cher que les modèles frontières de qualité similaire (GPT-4o et Claude 3.5 Sonnet), offrant un meilleur rapport coût-efficacité.

De plus, certains internautes spéculent à partir du code source que Llama 3.1 405B pourrait devenir un produit d'abonnement nécessitant un paiement pour l'utilisation. Cependant, la situation réelle reste à voir lors de la sortie officielle.