Ce n'est pas que les grands modèles soient inabordables, mais que les petits modèles offrent un meilleur rapport qualité-prix
Dans le vaste monde de l'IA, les petits modèles ont toujours eu leur propre légende.
À l'international, Mistral 7B, qui a fait sensation l'année dernière, a été salué comme "le meilleur modèle 7B" dès sa sortie, surpassant le modèle Llama 2 à 13B paramètres dans plusieurs évaluations de référence, et dépassant même Llama 34B en inférence, mathématiques et génération de code.
Cette année, Microsoft a également open-sourcé phi-3-mini, son plus puissant petit modèle de langage, qui, malgré ses 3,8B paramètres seulement, surpasse largement les performances des modèles de taille similaire et rivalise avec des modèles plus grands comme GPT-3.5 et Claude-3 Sonnet.
En Chine, Mianbi Intelligence a lancé début février MiniCPM, un modèle de langage embarqué de seulement 2B paramètres, offrant des performances supérieures dans un format plus compact, surpassant le populaire modèle français Mistral-7B et surnommé le "petit canon".
Récemment, MiniCPM-Llama3-V2.5, avec seulement 8B paramètres, a surpassé des modèles plus grands comme GPT-4V et Gemini Pro en termes de performances multimodales globales et de capacités OCR, ce qui lui a valu d'être plagié par l'équipe IA de l'Université de Stanford.
La semaine dernière, OpenAI a créé la surprise en lançant GPT-4o mini, décrit comme "le petit modèle le plus puissant et le plus rentable", ramenant l'attention de tous sur les petits modèles.
Depuis qu'OpenAI a plongé le monde dans l'IA générative, le développement national et international s'est toujours concentré sur une logique : rester dans la course en se dirigeant vers la commercialisation.
Ainsi, parmi les nombreuses discussions, la plus remarquable est qu'OpenAI, en baissant ses prix, semble également entrer dans la guerre des prix.
Beaucoup n'ont peut-être pas une idée claire du prix de GPT-4o mini. Il coûte 15 cents pour 100 000 tokens d'entrée et 60 cents pour 100 000 tokens de sortie, soit plus de 60% moins cher que GPT-3.5 Turbo.
En d'autres termes, générer un livre de 2500 pages avec GPT-4o mini ne coûterait que 60 cents.
Le PDG d'OpenAI, Sam Altman, a également commenté sur X que le modèle le plus puissant d'il y a deux ans, comparé à GPT-4o mini, non seulement présente un énorme écart de performance, mais coûte aussi 100 fois plus cher à utiliser.
Alors que la guerre des prix des grands modèles s'intensifie, certains petits modèles open source efficaces et économiques attirent davantage l'attention du marché, car ce n'est pas que les grands modèles soient inabordables, mais que les petits modèles offrent un meilleur rapport qualité-prix.
D'une part, dans un contexte où les GPU sont en rupture de stock dans le monde entier, les petits modèles open source, avec leurs coûts de formation et de déploiement plus faibles, gagnent progressivement du terrain.
Par exemple, MiniCPM de Mianbi Intelligence, grâce à son nombre réduit de paramètres, permet une baisse drastique des coûts d'inférence, pouvant même fonctionner sur CPU. Il ne nécessite qu'une seule machine pour l'entraînement continu des paramètres et une seule carte graphique pour le fine-tuning, tout en offrant une marge d'amélioration continue.
Si vous êtes un développeur expérimenté, vous pouvez même entraîner un modèle vertical pour le domaine juridique en construisant votre propre petit modèle, dont le coût d'inférence pourrait être seulement un millième de celui d'un grand modèle affiné.
Le déploiement de certaines applications de "petits modèles" embarqués permet à de nombreuses entreprises d'entrevoir la possibilité d'être rentables rapidement. Par exemple, Mianbi Intelligence a aidé la Cour intermédiaire du peuple de Shenzhen à mettre en service un système d'aide au jugement basé sur l'IA, démontrant ainsi la valeur de la technologie sur le marché.
Bien sûr, plus précisément, le changement que nous commencerons à voir n'est pas un passage des grands modèles aux petits modèles, mais plutôt un passage d'un modèle unique à une combinaison de modèles, le choix du modèle approprié dépendant des besoins spécifiques de l'organisation, de la complexité de la tâche et des ressources disponibles.
D'autre part, les petits modèles sont plus faciles à déployer et à intégrer dans les appareils mobiles, les systèmes embarqués ou les environnements à faible consommation.
Les petits modèles, avec leur nombre relativement faible de paramètres, ont des besoins en ressources de calcul (comme la puissance de calcul IA, la mémoire, etc.) inférieurs à ceux des grands modèles, ce qui leur permet de fonctionner plus facilement sur des appareils embarqués aux ressources limitées. De plus, les appareils embarqués ont généralement des exigences plus strictes en termes de consommation d'énergie et de dissipation thermique, et les petits modèles spécialement conçus peuvent mieux s'adapter à ces contraintes.
Zhao Ming, PDG de Honor, a déclaré que les modèles embarqués, en raison des limitations de puissance de calcul IA, pourraient avoir entre 1B et 10B paramètres, tandis que les grands modèles de langage basés sur le cloud peuvent atteindre 10 à 100 milliards, voire plus, ce qui illustre la différence de capacité entre les deux.
Un smartphone fonctionne dans un espace très limité, n'est-ce pas ? Il supporte 7 milliards dans un environnement de batterie limitée, de dissipation thermique limitée et de stockage limité. Imaginez toutes ces contraintes, c'est forcément le plus difficile.
Nous avons également révélé les acteurs clés derrière l'IA d'Apple, dont un petit modèle de 3B spécialement affiné pour des tâches telles que le résumé et la reformulation, qui, avec l'aide d'adaptateurs, surpasse Gemma-7B et convient à une exécution sur smartphone.
C'est pourquoi nous avons vu récemment Andrej Karpathy, ancien génie d'OpenAI, proposer un jugement selon lequel la compétition sur la taille des modèles va "s'inverser", devenant non pas de plus en plus grande, mais plutôt une question de qui peut être le plus petit et le plus flexible.
Comment les petits modèles peuvent-ils l'emporter sur les grands ?
La prédiction d'Andrej Karpathy n'est pas sans fondement.
À l'ère du data-centrisme, les modèles deviennent rapidement plus grands et plus complexes. Les super-modèles entraînés sur d'énormes quantités de données (comme GPT-4) sont en grande partie utilisés pour mémoriser une multitude de détails insignifiants, c'est-à-dire pour apprendre par cœur des informations.
Cependant, les modèles affinés peuvent même "battre les grands avec les petits" sur des tâches spécifiques, rivalisant en utilité avec de nombreux "super-modèles".
Clem Delangue, PDG de Hugging Face, a également suggéré que jusqu'à 99% des cas d'utilisation peuvent être résolus en utilisant de petits modèles, et a prédit que 2024 serait l'année des petits modèles de langage.
Avant d'en examiner les raisons, nous devons d'abord expliquer quelques connaissances.
En 2020, OpenAI a proposé dans un article une loi célèbre : la loi d'échelle (Scaling law), qui stipule que les performances augmentent avec la taille du modèle. Avec l'introduction de modèles comme GPT-4, les avantages de la loi d'échelle sont devenus de plus en plus évidents.
Les chercheurs et ingénieurs en IA croient fermement qu'en augmentant le nombre de paramètres du modèle, on peut améliorer davantage sa capacité d'apprentissage et de généralisation. Ainsi, nous avons vu la taille des modèles passer de dizaines de milliards de paramètres à des centaines de milliards, voire tendre vers des modèles de l'ordre du trillion de paramètres.
Dans le monde de l'IA, la taille du modèle n'est pas le seul critère pour mesurer son intelligence.
Au contraire, un petit modèle bien conçu, grâce à l'optimisation des algorithmes, l'amélioration de la qualité des données et l'adoption de techniques de compression avancées, peut souvent démontrer des performances comparables voire supérieures à celles des grands modèles sur des tâches spécifiques.
Cette stratégie de "battre les grands avec les petits" devient une nouvelle tendance dans le domaine de l'IA. L'amélioration de la qualité des données est l'une des méthodes permettant aux petits modèles de surpasser les grands.
Satish Jayanthi, directeur technique et co-fondateur de Coalesce, a décrit ainsi l'effet des données sur les modèles :
Si nous avions eu des LLM au 17e siècle et que nous avions demandé à ChatGPT si la Terre était ronde ou plate, il aurait répondu qu'elle était plate parce que les données que nous lui aurions fournies l'auraient amené à croire que c'était un fait. Les données que nous fournissons aux LLM et la façon dont nous les entraînons influencent directement leur sortie.
Pour produire des résultats de haute qualité, les grands modèles de langage doivent être entraînés sur des données de haute qualité et ciblées pour des sujets et domaines spécifiques. Tout comme les étudiants ont besoin de manuels de qualité pour apprendre, les LLM ont besoin de sources de données de qualité.