Apple est entré dans l'arène des grands modèles de langage open-source avec une approche plus ouverte que les autres entreprises. Ils ont publié un modèle de 7 milliards de paramètres qui fonctionne de manière comparable à Llama 3 8B, tout en rendant open-source l'ensemble du processus et des ressources d'entraînement.
Cette initiative intervient après les récentes critiques d'Elizabeth Gibney, rédactrice en chef de Nature, selon lesquelles de nombreux modèles d'IA prétendument open-source manquent de transparence dans les données et les méthodes d'entraînement, ne répondant pas aux véritables besoins de la recherche scientifique. La publication d'Apple répond directement à ces préoccupations.
Un scientifique en NLP et créateur d'AutoAWQ a exprimé son étonnement, notant qu'Apple a non seulement publié un modèle surpassant Mistral 7B, mais a également rendu open-source tout le processus, y compris l'ensemble de données de pré-entraînement.
L'importance de cette publication open-source a été soulignée par un membre de la communauté :
Pour quiconque cherche à entraîner des modèles à partir de zéro ou à affiner des modèles existants, le processus de gestion des données est essentiel à étudier.
En plus de la publication d'Apple, Mistral AI s'est associé à NVIDIA pour lancer un petit modèle de 12 milliards de paramètres la semaine dernière. Le fondateur de HuggingFace a déclaré que c'était la "semaine des petits modèles".
Le nouveau petit modèle d'Apple montre des capacités impressionnantes :
- Modèle de base de 7 milliards entraîné sur des ensembles de données ouverts utilisant 2,5T de tokens
- Données principalement en anglais avec une fenêtre de contexte de 2048 tokens
- Les ensembles de données incluent DCLM-BASELINE, StarCoder et ProofPile2
- Score MMLU approchant celui de Llama 3 8B
- Entraîné à l'aide des frameworks PyTorch et OpenLM
L'équipe de recherche a introduit un nouveau benchmark de comparaison de données de modèle de langage appelé DCLM. Ils ont découvert que le filtrage et la sélection automatiques de données de haute qualité à partir d'ensembles de données plus volumineux à l'aide de modèles d'apprentissage automatique pourraient être la clé pour construire des ensembles d'entraînement de haute qualité.
En utilisant DCLM, ils ont conçu un ensemble de données de haute qualité DCLM-BASELINE pour entraîner le modèle DCLM-7B de 7 milliards de paramètres à partir de zéro.
DCLM-7B a atteint une précision de 64% en 5 coups sur le benchmark MMLU, comparable à Mistral-7B-v0.3 (63%) et Llama 3 8B (66%). Il a également égalé les performances moyennes de Llama 3 8B sur 53 tâches de compréhension du langage naturel tout en ne nécessitant que 1/6 de la puissance de calcul.
Par rapport à d'autres modèles de taille similaire, le score MMLU de DCLM-7B a dépassé celui de Mistral-7B et s'est approché de celui de Llama 3 8B.
Pour tester l'efficacité du nouvel ensemble de données, un professionnel de l'industrie a entraîné GPT-2 1.5B en utilisant llm.c pour comparer DCLM-Baseline avec FineWeb-Edu. Les résultats ont montré que DCLM-Baseline a obtenu des scores moyens plus élevés, performant mieux sur des tâches comme ARC, HellaSwag et MMLU.
La tendance vers des modèles plus petits a pris de l'ampleur :
- HuggingFace a lancé la famille de petits modèles "SmolLM" (135M, 360M, 1,7B)
- OpenAI a publié GPT-4o mini, approchant les capacités de GPT-4 à un coût inférieur
- Mistral AI et NVIDIA ont publié le modèle Mistral NeMo de 12 milliards de paramètres
Le passage à des modèles plus petits est motivé par leur capacité à atteindre des performances comparables à celles des modèles plus grands tout en réduisant considérablement les coûts. Comme l'a démontré le fondateur de smol AI, des modèles comme GPT-4o mini offrent des prix globaux inférieurs par rapport aux alternatives plus grandes.