Selon les informations, Llama 3.1 aurait fuité, y compris les résultats de référence pour les modèles à 8B, 70B et 405B paramètres. Même la version 70B surpasse GPT-4o sur plusieurs benchmarks, marquant la première fois qu'un modèle open-source dépasse des modèles propriétaires comme GPT-4o et Claude Sonnet 3.5 sur plusieurs benchmarks.
Détails clés de la fiche technique divulguée :
- Entraîné sur plus de 15T tokens de données publiquement disponibles jusqu'en décembre 2023
- Les données de fine-tuning incluent des ensembles d'instructions publics et 15 millions d'échantillons synthétiques
- Prend en charge l'anglais, le français, l'allemand, l'hindi, l'italien, le portugais, l'espagnol et le thaï
Les modèles auraient une longueur de contexte de 128k et utilisent l'attention à requêtes groupées pour une meilleure scalabilité d'inférence.
Les utilisations prévues incluent des applications commerciales multilingues et la recherche. Les modèles affinés par instructions sont optimisés pour le chat de type assistant, tandis que les modèles pré-entraînés peuvent être adaptés à diverses tâches de génération de langage naturel.
Infrastructure d'entraînement :
- Bibliothèque d'entraînement personnalisée et clusters GPU de Meta
- 39,3M heures GPU sur du matériel H100-80GB
- Émissions estimées à 11 390 tonnes de CO2e (0 tonne basée sur le marché grâce à l'utilisation d'énergie renouvelable)
Les scores de référence sont rapportés pour diverses tâches, avec les modèles Llama 3.1 surpassant de nombreux modèles de chat open source et propriétaires.
Considérations de sécurité :
- Approche de collecte de données à plusieurs volets combinant données générées par l'homme et données synthétiques
- Classificateurs basés sur les LLM pour le contrôle qualité
- Accent mis sur la réduction des refus du modèle et du ton de refus
- Prompts adverses incorporés dans les données de sécurité
- Destiné à être déployé dans le cadre d'un système d'IA plus large avec des garanties supplémentaires
Les développeurs devraient mettre en œuvre des mesures de sécurité au niveau du système lors de la construction de systèmes d'agents, en particulier lors de l'utilisation de nouvelles fonctionnalités telles que des fenêtres de contexte plus longues, des capacités multilingues et des intégrations d'outils tiers.