"Faire grand et fort", et aussi intensément "faire petit et précis".
Dépasser GPT-4 n'est plus le seul KPI, les grands modèles entrent dans une période clé de compétition pour le marché. Pour séduire les utilisateurs, il ne suffit pas de montrer sa puissance technologique, il faut aussi prouver que son modèle offre un meilleur rapport qualité-prix - ### un modèle plus petit pour des performances égales, des performances plus élevées et plus économiques pour des paramètres égaux.
En fait, cette tendance à la "miniaturisation des grands modèles" a commencé à se développer au second semestre de l'année dernière.
Deux entreprises ont changé les règles du jeu. L'une est la startup française Mistral AI, qui a stupéfié le monde en septembre dernier en battant Llama 2 avec 13 milliards de paramètres avec un grand modèle de 7 milliards de paramètres, devenant célèbre dans la communauté des développeurs. L'autre est la startup chinoise Mianbi Intelligence, qui a lancé en février de cette année un modèle côté terminal encore plus condensé, MiniCPM, réalisant des performances supérieures à Llama 2 13B avec seulement 2,4 milliards de paramètres.
Les deux startups ont une excellente réputation dans la communauté des développeurs, avec plusieurs modèles en tête des classements open source. En particulier Mianbi Intelligence, issue du laboratoire de traitement du langage naturel de l'Université Tsinghua, dont le modèle multimodal a fait sensation cette année en étant "réemballé" par une équipe d'une grande université américaine. Le travail original de Mianbi a été reconnu dans les cercles académiques nationaux et internationaux, faisant la fierté des modèles AI open source chinois.
Apple a également commencé à étudier l'année dernière des modèles côté terminal mieux adaptés aux téléphones mobiles. OpenAI, qui a toujours suivi une voie d'expansion brutale et extensive, est un nouvel entrant relativement inattendu. Le lancement la semaine dernière du modèle léger GPT-4 mini signifie que le leader des grands modèles descend volontairement de son "piédestal" et commence à suivre la tendance de l'industrie, essayant d'exploiter un marché plus large avec des modèles moins chers et plus accessibles.
2024 sera une année cruciale pour la "miniaturisation" des grands modèles !
I. La "loi de Moore" de l'ère des grands modèles : l'efficacité est la clé de la durabilité
Le développement actuel des grands modèles est pris dans une inertie : ### la force brute fait des miracles.
En 2020, un article d'OpenAI a validé l'existence d'une forte corrélation entre les performances du modèle et sa taille. Il suffisait d'ingérer plus de données de haute qualité et d'entraîner un modèle de plus grande taille pour obtenir de meilleures performances.
Suivant cette voie simple mais efficace, une course effrénée vers des modèles toujours plus grands s'est engagée dans le monde entier ces deux dernières années. Cela a posé les bases d'une hégémonie algorithmique, où seules les équipes disposant de fonds et de puissance de calcul suffisants ont les moyens de participer à long terme à la compétition.
L'année dernière, le PDG d'OpenAI, Sam Altman, a révélé que le coût de formation de GPT-4 était d'au moins ### 100 millions de dollars. En l'absence d'un modèle commercial hautement rentable, même les géants technologiques aux poches profondes auraient du mal à supporter des investissements à long terme sans tenir compte des coûts. L'environnement écologique ne peut pas non plus tolérer un tel jeu de dépenses sans fin.
L'écart de performance entre les meilleurs grands modèles de langage se réduit à vue d'œil. Bien que GPT-4 reste en tête, la différence de scores aux tests de référence avec Claude 3 Opus et Gemini 1.5 Pro n'est pas abyssale. Sur certaines capacités, les grands modèles de dizaines de milliards de paramètres peuvent même obtenir de meilleures performances. La taille du modèle n'est plus le seul facteur déterminant affectant les performances.
Ce n'est pas que les grands modèles de pointe manquent d'attrait, c'est que les modèles légers offrent un meilleur rapport qualité-prix.
Le graphique ci-dessous, partagé fin mars par l'ingénieure IA Karina Ngugen sur les réseaux sociaux, illustre clairement la relation entre les performances des grands modèles de langage sur le benchmark MMLU et leurs coûts depuis 2022 : au fil du temps, les modèles de langage obtiennent des scores de précision MMLU plus élevés, tandis que les coûts associés diminuent considérablement. Les nouveaux modèles atteignent une précision d'environ 80%, avec des coûts plusieurs ordres de grandeur inférieurs à ceux d'il y a quelques années.
Le monde change très rapidement, et ces derniers mois ont vu l'arrivée d'une nouvelle vague de modèles légers économiquement efficaces.
"La compétition sur la taille des grands modèles de langage s'intensifie - à l'envers !" parie le gourou de l'IA Andrej Karpathy. "Nous allons voir des modèles très, très petits 'penser' très bien et de manière fiable."
Capacités du modèle ÷ Paramètres du modèle participant au calcul = Densité de connaissances, cette dimension de mesure peut représenter l'intelligence forte que les modèles de même échelle de paramètres peuvent posséder. Le grand modèle GPT-3 lancé en juin 2020 avait 175 milliards de paramètres. En février de cette année, le modèle MiniCPM-2.4B de Mianbi Intelligence, qui réalise des performances équivalentes, a réduit l'échelle des paramètres à 2,4 milliards, soit une augmentation de la densité de connaissances d'environ ### 86 fois.
Sur la base de ces tendances, Liu Zhiyuan, professeur associé à long terme au département d'informatique de l'Université Tsinghua et scientifique en chef de Mianbi Intelligence, a récemment proposé une idée intéressante : ### l'ère des grands modèles a sa propre "loi de Moore".
Plus précisément, ### avec le développement synergique des données, de la puissance de calcul et des algorithmes, la densité de connaissances des grands modèles continue de s'améliorer, doublant en moyenne tous les 8 mois.
En augmentant la densité des circuits sur les puces, on est passé de superordinateurs occupant plusieurs pièces à des smartphones que l'on peut mettre dans sa poche pour une puissance de calcul équivalente. Le développement des grands modèles suivra une règle similaire. Liu Zhiyuan a nommé cette loi directrice qu'il a proposée la "loi de Mianbi".
Si cette tendance se poursuit, ### pour entraîner un modèle de 100 milliards de paramètres, les capacités qu'il possède pourront être réalisées par un modèle de 50 milliards de paramètres 8 mois plus tard, et seulement 25 milliards de paramètres seront nécessaires 8 mois après.
II. Plusieurs voies : une guerre des prix acharnée pour les modèles fermés, une triade Chine-États-Unis-Europe pour l'open source
Actuellement, les acteurs entrant dans la course à la miniaturisation des grands modèles suivent plusieurs voies.
OpenAI, Google et Anthropic ont tous suivi la voie des modèles fermés. Leurs modèles phares GPT-4, Claude 3.5 Sonnet et Gemini 1.5 Pro contrôlent la catégorie des performances les plus élevées, avec des échelles de paramètres allant de centaines de milliards à des billions.
Les modèles légers sont des versions simplifiées de leurs modèles phares. Après le lancement d'OpenAI la semaine dernière, GPT-4 mini est devenu l'option la plus rentable en dessous de 10B sur le marché, surpassant Gemini Flash et Claude Haiku en termes de performances. Pour le grand public, il remplace GPT-3.5 pour une utilisation gratuite, tandis que pour les entreprises, le prix de l'API a été considérablement réduit, rendant l'adoption de la technologie des grands modèles plus accessible.
Andriy Burkov, auteur de "Machine Learning Engineering", a déduit des prix que GPT-4 mini a environ 7B de paramètres. Li Dahai, PDG de Mianbi Intelligence, suppose que GPT-4 mini est un modèle "MoE large" avec un grand nombre d'experts, plutôt qu'un modèle côté terminal, positionné comme un modèle cloud à haute rentabilité pour réduire considérablement le coût de l'application industrielle des grands modèles.