Quand la violence ne produit plus de miracles, les grands modèles sont piégés par la malédiction technologique
Les paramètres absolument gigantesques ne sont peut-être pas la seule solution pour déployer les grands modèles. Cette idée devient progressivement un consensus dans l'industrie des grands modèles.
Le premier goulot d'étranglement sur la voie des grands paramètres est le plus grand gagnant de ce festin - NVIDIA.
Récemment, un rapport de recherche de Meta a montré que : son dernier modèle Llama 3 avec 405 milliards de paramètres, lors de l'entraînement sur un cluster de 16384 GPU NVIDIA H100, a connu 419 incidents inattendus en 54 jours, avec une panne en moyenne toutes les trois heures pendant l'entraînement. Pendant ce temps, chaque panne d'un seul GPU interrompait l'ensemble du processus d'entraînement, nécessitant un redémarrage.
En termes simples, le nombre actuel de paramètres des grands modèles approche déjà les limites de ce que le matériel peut supporter. Même avec un nombre infini de GPU, cela ne résoudrait plus les problèmes de puissance de calcul des grands modèles. Si on continue à augmenter frénétiquement les paramètres, le processus d'entraînement deviendra comme Sisyphe poussant éternellement son rocher.
Le matériel a augmenté la difficulté d'expansion des grands modèles. Dans des scénarios spécifiques, le niveau d'intelligence n'est plus proportionnel au nombre de paramètres, ce qui remet en question cette approche brutale d'un point de vue pratique.
Les scénarios des grands modèles deviennent de plus en plus complexes, spécialisés et fragmentés. Vouloir un modèle capable à la fois de répondre à des questions générales et de résoudre des problèmes dans des domaines spécialisés est presque utopique.
Une dimension de comparaison technique favorite d'un fabricant chinois de grands modèles est : comparer avec GPT-4 sur l'analyse de poésie et les blagues stupides. Presque sans exception, quel que soit la taille du modèle, open source ou non, les grands modèles chinois "battent à plate couture" le "numéro un mondial". Même sur des questions de culture littéraire de base comme la relation entre Lu Xun et Zhou Shuren, les meilleurs grands modèles ne peuvent pas rivaliser avec un moteur de recherche traditionnel.
Dans les applications réelles, le triangle d'impossibilité de la commercialisation a définitivement douché les adeptes des paramètres.
Dans la pratique, outre le niveau d'intelligence du modèle, les chefs de produit doivent également prendre en compte deux facteurs majeurs : la vitesse et le coût. En général, un temps de réponse inférieur à 1 seconde dans les questions-réponses, une précision de 99% et un modèle commercial rentable sont des conditions nécessaires à la survie d'un grand modèle.
Mais utiliser l'approche des grands paramètres pour augmenter l'intelligence signifie souvent que plus le niveau d'intelligence est élevé, plus la vitesse de réponse du produit est lente et le coût élevé, et vice versa.
Si on laisse les paramètres s'étendre sans limite, l'IA deviendra inévitablement une guerre de capitaux, mais le coût de l'expansion dépassera de loin celui de toute compétition commerciale historique à un stade équivalent... Pour les acteurs qui ont déjà appuyé sur l'accélérateur, la seule façon de ne pas perdre trop lourdement est d'augmenter les enjeux à un niveau que les concurrents ne peuvent pas suivre.
Ainsi, face au plafond qui se profile, la question de l'industrie devient : si le modèle universel n'existe pas et que la violence ne produit pas de miracles, où l'industrie doit-elle aller ?
Le moment Ford Model T des grands modèles : CoE ou MoE ?
Alors que la faisabilité pour un grand modèle d'être à la fois généraliste et spécialisé est bloquée, la collaboration entre plusieurs modèles devient le thème principal de la deuxième phase de l'industrie.
En 1913, Ford a introduit de manière créative l'idée de la chaîne d'abattage dans l'industrie automobile, développant la première chaîne de montage au monde. La production automobile est ainsi passée de l'assemblage manuel par des maîtres artisans à un processus industriel, réduisant le temps de production d'une voiture de près de 60 fois et son prix de vente de plus de moitié. La fabrication automobile est ainsi entrée dans une nouvelle ère.
Un moment similaire au Model T se produit dans l'industrie des grands modèles.
Prenons l'exemple typique de la traduction : une bonne traduction doit atteindre trois niveaux - fidélité, expressivité et élégance. Mais dans le monde des grands modèles, les modèles de traduction traditionnels ne peuvent atteindre que la fidélité, tandis que l'expressivité et l'élégance nécessitent des modèles d'écriture.
Mais concernant la façon de diviser le travail entre plusieurs modèles, l'industrie se divise en deux camps aux positions tranchées : les partisans de l'alliance verticale et ceux de l'alliance horizontale.
L'approche technique des partisans de l'alliance verticale est le MoE.
Le MoE (Mixture-of-Experts), ou modèle de mélange d'experts en français, combine plusieurs modèles experts dans des domaines spécifiques en un super-modèle. Dès 2022, Google a proposé le grand modèle MoE Switch Transformer, qui avec ses 1571 milliards de paramètres, a montré une efficacité d'échantillonnage plus élevée sur les tâches de pré-entraînement (plus précis sans augmentation significative du coût de calcul) que le modèle T5-XXL (11 milliards).
De plus, le célèbre hacker américain George Hotz et le créateur de PyTorch Soumith Chintala ont successivement déclaré que GPT-4 est également composé de 8 modèles MoE de 220 milliards de paramètres chacun, formant un grand modèle de 1760 milliards de paramètres, qui n'est pas strictement "un seul" modèle de mille milliards.
Cependant, cette approche "8 en 1" signifie également que la conception et chaque mise à niveau itérative du MoE nécessitent d'énormes ressources. C'est comme l'alpinisme quotidien : la difficulté de gravir une fois l'Everest à 8848m est bien supérieure à la somme des efforts nécessaires pour gravir 8 fois le mont Yandang à 1108m. Par conséquent, seuls les géants technologiques de l'IA ayant un avantage absolu dans les 8 domaines peuvent généralement y participer.
Ainsi, alors que le MoE devient progressivement un jeu d'oligopoles, une nouvelle approche technique est apparue - le CoE des partisans de l'alliance horizontale.
CoE (Collaboration-of-Experts), ou modèle de collaboration d'experts en français. En termes simples, une seule entrée accède simultanément à plusieurs modèles, et l'entrée ajoute une étape de reconnaissance d'intention avant l'analyse du modèle, puis effectue une répartition des tâches, décidant quel modèle agit ou quels modèles collaborent. Par rapport au MoE, le plus grand avantage du CoE est que les différents modèles experts peuvent travailler en collaboration sans être liés entre eux.
Par rapport au MoE, il y a plus de collaboration entre chaque modèle expert du CoE, une division du travail plus précise, et c'est plus flexible et plus spécialisé. Cette approche, comparée au MoE, offre une plus grande efficacité et des coûts d'API et d'utilisation de tokens plus faibles.
Alors, quelle approche entre MoE et CoE aura l'avantage ?
Une autre approche de résolution : qu'est-ce qui détermine l'expérience intelligente de l'utilisateur ?
Lorsque Zhou Hongyi s'est transformé en gourou de l'IA vêtu de rouge, au sein de 360, les débats sur les approches CoE et MoE se sont également répétés au cours de la dernière année et demie.
Si on choisit le MoE, l'accumulation technologique de 360 sur plusieurs années suffit à mener cette bataille.
Mais choisir le CoE signifie partager le gâteau avec davantage de fabricants de grands modèles.
Le proverbe "Trois cordonniers valent un sage" a inspiré Liang Zhihui, vice-président du groupe 360, à miser sur le CoE :
Même si une entreprise atteint le niveau "8 en 1" d'OpenAI, elle aura toujours des points faibles. Mais si on combine les meilleures capacités des entreprises de grands modèles grâce aux capacités du CoE, cela signifie une complémentarité des avantages et la réalisation d'une véritable polyvalence dans 18 domaines.
Les résultats des évaluations montrent que la version bêta de l'assistant IA basé sur les capacités CoE AI de 360, après avoir intégré les forces de 16 des plus puissants grands modèles nationaux, dont le 360 Zhinao, a déjà dépassé GPT-4 sur 11 indicateurs de test de capacités individuelles.
Dans le même temps, même en "externalisant" les capacités des modèles sous-jacents, 360 peut toujours trouver son propre positionnement unique dans la vague du CoE.
Du point de vue du produit, l'assistant IA du produit 360 CoE peut être divisé en deux parties : l'accumulation de corpus et la technologie algorithmique s'appuient principalement sur l'accès à 16 grands modèles nationaux, dont le 360 Zhinao, similaires à des forces spéciales avec différentes spécialités ; tandis que 360 joue le rôle de commandant, utilisant un modèle de reconnaissance d'intention pour comprendre plus précisément l'intention de l'utilisateur ; grâce à des modèles de décomposition et de planification des tâches, il réalise une planification intelligente de nombreux réseaux de modèles experts (100+ LLM), d'un centre de connaissances à l'échelle de centaines de milliards et de plus de 200 outils tiers, atteignant ainsi une flexibilité et une efficacité supérieures au MoE.