La classification des directions des grands modèles d'IA
Actuellement, la plupart des entreprises utilisent l'IA en utilisant des grands modèles de langage généraux, qui sont ensuite formés avec des données spécifiques à leur industrie pour créer des applications différenciées. Cependant, cela pourrait être une approche simpliste. Mike Knoop, co-fondateur de Zapier, pense que l'expansion des grands modèles de langage ne peut essentiellement promouvoir que le développement de la forme d'intelligence qu'est la "mémoire", ce qui est distinct de l'intelligence. Il ne peut pas comprendre les scénarios et les besoins des entreprises, et ne peut donc pas exploiter pleinement la valeur de l'IA.
De plus, la courbe entre l'augmentation de l'investissement en puissance de calcul GPU et l'amélioration des capacités des grands modèles de langage pourrait présenter des rendements marginaux décroissants. Une fois que les données simples et publiques seront épuisées, il deviendra illusoire de vouloir dépasser les autres dans le domaine de l'IA en s'appuyant sur des grands modèles de langage généraux.
C'est encore plus désavantageux pour les entreprises. Dans leur quête de nouvelles technologies, les entreprises inversent souvent les priorités, commençant par vouloir résoudre des problèmes spécifiques, mais finissant par se lancer dans une course aux concepts, oubliant ainsi les problèmes les plus fondamentaux.
La solution à ce problème est entre les mains des entreprises d'IA. Sarah Tavel, partenaire chez Benchmark, pense que la meilleure direction de développement est de créer des startups de grands modèles basées sur les besoins spécifiques des clients. Alex Wang, co-fondateur de Scale AI, pense quant à lui que les données sont le goulot d'étranglement des performances des modèles d'IA, plutôt que les algorithmes ou le calcul. Les données proviennent finalement de multiples industries verticales, ce qui signifie que les entreprises d'IA devraient s'immerger dans les domaines industriels et développer des grands modèles industriels qui répondent aux besoins des entreprises.
Ce processus comporte deux points clés :
-
Le problème des données : Les entreprises d'IA doivent "comprendre" les utilisateurs et l'industrie. De nombreuses entreprises possèdent une grande quantité de données linguistiques sous-utilisées.
-
Le problème de gestion et d'itération : En raison de la diversité des industries et des scénarios, il est actuellement difficile pour une seule entreprise de construire des grands modèles couvrant tous les domaines.
Fourth Paradigm et Mike Knoop de Zapier pointent tous deux vers l'automatisation comme élément clé. Sur le plan technique, AutoML, la synthèse de programmes et la recherche d'architecture neuronale impliquent tous des processus d'automatisation et d'optimisation pour réduire l'intervention humaine et améliorer l'efficacité et l'efficience. Mike Knoop pense que l'exploration de l'AGI doit être basée sur la synthèse de programmes et la recherche d'architecture neuronale, tandis que Dai Wenyuan, fondateur de Fourth Paradigm, mentionne qu'AutoML est la technologie de base pour construire d'innombrables grands modèles industriels.
Dai Wenyuan qualifie AutoML d'"art de l'échec", sa capacité à générer plus de valeur vient du fait que Fourth Paradigm a traversé de nombreux scénarios et sait comment faire converger les données et les modèles vers les besoins de scénarios spécifiques. Les succès se transforment en résultats, les échecs en nourriture, accélérant l'itération basée sur l'automatisation. Comme le dit Alex Wang : "L'apprentissage automatique est un cadre où les déchets entrent et les déchets sortent." Mais avec des données industrielles de haute qualité et une capacité constante de correction des erreurs, on finira par réaliser une mise en œuvre fiable des grands modèles industriels.
Créer différents modèles d'IA : idées, approches et perspectives
Certaines entreprises, représentées par OpenAI, qui se concentrent sur les grands modèles généraux, ont tendance à se développer horizontalement, le grand modèle étant tout. En termes de modèle commercial, elles vendent simplement les capacités du grand modèle. En comparaison, des entreprises comme Fourth Paradigm et Glean empruntent une autre voie, utilisant la technologie d'IA pour aider les entreprises à prendre des décisions dans certains domaines afin d'améliorer l'efficacité globale du travail. Leurs modèles commerciaux sont également différents.
Glean fournit une plateforme de recherche et de gestion des connaissances d'entreprise basée sur la technologie d'IA, intégrant les fonctionnalités de plusieurs applications tierces pour devenir une partie du flux de travail. Elle peut également aider les entreprises à former des modèles d'IA exclusifs avec leurs propres données, basés sur le "modèle de connaissances fiables" développé indépendamment par Glean.
Fourth Paradigm s'implique plus profondément dans la prédiction et la gestion des problèmes commerciaux fondamentaux de l'industrie. Sa plateforme de grands modèles industriels, AIOS 5.0, construit des grands modèles de base industriels basés sur des données multimodales de divers scénarios industriels. Au niveau des capacités, elle se concentre sur "Predict the Next X", où X représente la logique et les résultats de diverses grandes industries. Au niveau de l'utilisation, elle fournit des outils de modélisation à faible barrière d'entrée, un système de services d'innovation scientifique et d'autres capacités pour réaliser la construction, le déploiement et la gestion de bout en bout des grands modèles industriels.
C'est un cas typique de développement des entreprises d'IA chinoises basé sur le contexte industriel. Dai Wenyuan pense que la Chine a un grand avantage en termes de scénarios et de données, et qu'après avoir couvert suffisamment de scénarios, l'assemblage de ces modèles pourrait aussi réaliser l'AGI. En comparaison, de nombreux grands modèles industriels populaires restent de grands modèles de langage industriels, grands mais pas précis. Après avoir divisé en scénarios plus précis, bien qu'il semble nécessaire d'établir de nombreux grands modèles, la charge de données pour chaque scénario précis est limitée, et avec l'aide de technologies automatisées, cela ouvre en fait une nouvelle voie pour le développement de l'AGI au niveau applicatif.
Mike Knoop pense que si l'AGI a rencontré des obstacles après une progression fulgurante, c'est parce qu'elle dépend trop des grands modèles de langage et définit l'AGI comme un système capable d'accomplir la plupart des tâches. Mais en réalité, l'AGI devrait se concentrer davantage sur l'acquisition efficace de nouvelles capacités et la résolution de problèmes ouverts dans divers scénarios.
Jensen Huang, PDG de NVIDIA, a mentionné qu'avec le développement des grands modèles, l'informatique passe d'une approche basée sur les instructions à une approche basée sur l'intention, "à l'avenir, les applications feront et exécuteront des choses de manière similaire à notre façon de faire les choses, en formant des équipes d'experts, en utilisant des outils, en raisonnant, en planifiant et en exécutant nos tâches". Cette logique implique en soi l'universalité, les grands modèles entrant dans le monde physique, car les décisions dans le monde physique suivent également des schémas.
Un exemple similaire est Palantir, qui était à l'origine une entreprise de Big Data orientée gouvernement, basée sur l'analyse de données et la modélisation de simulation pour aider à la prise de décision. La technologie d'IA générative a transformé sa façon de traiter les données, réalisant des progrès significatifs en termes d'automatisation et de prise de décision basée sur les données, accélérant ainsi le développement de ses activités d'IA B2B. Fourth Paradigm, quant à elle, établit des grands modèles industriels dans chaque scénario déterministe, aidant les entreprises à maîtriser leurs propres applications et à prendre des décisions efficaces.