Fuite présumée de Llama 3.1 : Un modèle open source de 405 milliards de paramètres surpassant GPT-4 fait son apparition

Selon les informations, Llama 3.1 aurait fuité, y compris les résultats de référence pour les modèles à 8B, 70B et 405B paramètres. Même la version 70B surpasse GPT-4o sur plusieurs benchmarks, marquant la première fois qu'un modèle open-source dépasse des modèles propriétaires comme GPT-4o et Claude Sonnet 3.5 sur plusieurs benchmarks.

Détails clés de la fiche technique divulguée :

Entraîné sur plus de 15T tokens de données publiquement disponibles jusqu'en décembre 2023
Les données de fine-tuning incluent des ensembles d'instructions publics et 15 millions d'échantillons synthétiques
Prend en charge l'anglais, le français, l'allemand, l'hindi, l'italien, le portugais, l'espagnol et le thaï

Les modèles auraient une longueur de contexte de 128k et utilisent l'attention à requêtes groupées pour une meilleure scalabilité d'inférence.

Les utilisations prévues incluent des applications commerciales multilingues et la recherche. Les modèles affinés par instructions sont optimisés pour le chat de type assistant, tandis que les modèles pré-entraînés peuvent être adaptés à diverses tâches de génération de langage naturel.

Infrastructure d'entraînement :

Bibliothèque d'entraînement personnalisée et clusters GPU de Meta
39,3M heures GPU sur du matériel H100-80GB
Émissions estimées à 11 390 tonnes de CO2e (0 tonne basée sur le marché grâce à l'utilisation d'énergie renouvelable)

Les scores de référence sont rapportés pour diverses tâches, avec les modèles Llama 3.1 surpassant de nombreux modèles de chat open source et propriétaires.

Considérations de sécurité :

Approche de collecte de données à plusieurs volets combinant données générées par l'homme et données synthétiques
Classificateurs basés sur les LLM pour le contrôle qualité
Accent mis sur la réduction des refus du modèle et du ton de refus
Prompts adverses incorporés dans les données de sécurité
Destiné à être déployé dans le cadre d'un système d'IA plus large avec des garanties supplémentaires

Les développeurs devraient mettre en œuvre des mesures de sécurité au niveau du système lors de la construction de systèmes d'agents, en particulier lors de l'utilisation de nouvelles fonctionnalités telles que des fenêtres de contexte plus longues, des capacités multilingues et des intégrations d'outils tiers.