OpenAI déclenche une concurrence féroce pour les petits modèles, le DCLM d'Apple fait une entrée fracassante, surpassant Mistral 7B en performance et étant entièrement open source

La concurrence pour les petits modèles d'intelligence artificielle s'intensifie. Les grandes entreprises technologiques et les startups se lancent dans ce domaine, s'efforçant de proposer leurs propres solutions d'IA légères. Cette compétition acharnée concerne non seulement l'innovation technologique, mais aussi les parts de marché et les applications commerciales. Avec l'intensification de la concurrence, nous pourrions voir l'émergence de produits d'IA plus efficaces et moins coûteux, ouvrant de nouvelles possibilités pour divers secteurs et industries.

L'ère des petits modèles est arrivée, avec des acteurs majeurs comme OpenAI, Mistral AI, HuggingFace, et maintenant Apple qui publient des modèles de langage compacts.

Apple est entré dans l'arène des petits modèles avec sa nouvelle série DCLM (Data-Centric Language Model), qui comprend des versions de 7 milliards et 1,4 milliard de paramètres. Le modèle 7B surpasse Mistral-7B et s'approche des capacités de Llama 3 et Gemma.

Selon Vaishaal Shankar, chercheur en ML chez Apple, DCLM est le modèle "véritablement open source" le plus performant à ce jour, avec les poids, le code d'entraînement et un ensemble de données ouvert tous disponibles publiquement. Cette approche totalement ouverte a suscité les éloges de la communauté IA.

Le modèle DCLM-7B utilise une architecture décodeur uniquement et a été entraîné sur 2,5T tokens filtrés à partir d'un ensemble de données de 4T tokens. Il a une longueur de contexte de 2048 tokens. Les évaluations de performance montrent qu'il surpasse d'autres modèles à données ouvertes de taille similaire sur plusieurs benchmarks.

Bien que les performances de DCLM-7B soient comparables à celles de modèles comme Mistral-7B et Gemma 8B, il est en retrait par rapport à certains modèles à données fermées comme Phi-3. Cependant, les chercheurs ont constaté d'autres améliorations en étendant les données d'entraînement et la longueur du contexte.

La version 1,4B de DCLM montre des résultats particulièrement solides pour sa taille, surpassant des modèles comme SmolLM, Qwen-1.5B et Phi-1.5B sur certaines métriques.

Les modèles DCLM sont construits sur le benchmark DataComp, qui se concentre sur la curation de données d'entraînement de haute qualité plutôt que sur l'augmentation de la taille du modèle. Cela s'aligne avec l'importance croissante que de nombreux géants de la technologie accordent aux données d'entraînement plutôt qu'à l'architecture du modèle.

Alors que les grands modèles de langage continuent de progresser, il y a un intérêt croissant pour des modèles plus petits et plus efficaces de la part des grands laboratoires d'IA. L'entrée d'Apple dans ce domaine avec des modèles entièrement open source pourrait aider à accélérer les progrès dans les modèles de langage compacts mais capables.