L'intelligence artificielle a-t-elle une chance de recréer ByteDance ou Pinduoduo ?
Comparé aux années précédentes, la particularité du WAIC cette année est que les professionnels ne se limitent plus aux discussions sur les grands modèles de base, mais présentent davantage de produits d'application orientés vers des scénarios verticaux. Cela montre que la réflexion des développeurs techniques est de plus en plus claire, et que l'IA se rapproche de plus en plus de la vie des gens ordinaires.
Depuis le lancement de ChatGPT fin 2022, il ne s'est écoulé qu'un an et demi. Zhuang Minghao, vice-président et directeur de la stratégie de Qiwan Technology, se souvient qu'il y a un an, les discussions se limitaient encore aux applications de l'IA dans le langage et le texte, mais aujourd'hui, les succès se multiplient dans les domaines multimodaux tels que les images, les vidéos, l'audio et la musique, prouvant ainsi la vitalité de cette nouvelle vague.
Dans cette vague d'IA où mille voiles rivalisent, les startups et les petites et moyennes entreprises ont une nouvelle fois l'opportunité de concourir avec les géants - tout comme la scène créée par l'Internet mobile il y a plus de dix ans.
Zhuang Minghao résume la situation actuelle de mêlée par cette phrase : "L'IA est une carte cachée pour les entrepreneurs, une carte visible pour les grandes entreprises".
Par "carte visible pour les grandes entreprises", il entend que pour toutes les grandes entreprises, faire de l'IA aujourd'hui est une évidence, c'est quelque chose qui doit être fait pour renforcer les activités existantes, et qui est planifié et rythmé ; tandis que "carte cachée pour les entrepreneurs" signifie que pour les startups, juger de la direction entrepreneuriale de l'IA est une question de deviner et de spéculer.
Cependant, la nouvelle génération de géants se cache souvent dans les opportunités de jouer avec des cartes cachées. "En 2010, lorsque les grandes entreprises transformaient leurs activités pour le sans fil, personne n'aurait imaginé que des entreprises comme Pinduoduo ou Douyin émergeraient quelques années plus tard", dit Zhuang Minghao. "Un jeu de cartes ne se fait pas qu'avec des cartes visibles, c'est la forêt qui fait les grands arbres, et c'est un écosystème complexe qui fait les entreprises exceptionnelles".
Il y a dix ans, Qiwan Technology a saisi cette "carte cachée" et a lancé TT Voice, brisant le vide du marché de la voix mobile. Dix ans plus tard, à ce nouveau moment où cartes visibles et cachées s'entremêlent, pourquoi Qiwan Technology a-t-elle le droit de s'asseoir à la table ? Zhuang Minghao donne trois raisons.
Premièrement, Qiwan est profondément enracinée dans des domaines verticaux comme le divertissement général depuis dix ans, avec une compréhension approfondie de l'écosystème et des utilisateurs de ce scénario. "Nous, les entreprises qui faisons des affaires, essentiellement, le faisons pour répondre aux scénarios des utilisateurs, satisfaire leurs demandes, toujours rester proches de leurs besoins, c'est la mission constante des startups et des entreprises opérationnelles", dit Zhuang Minghao.
Deuxièmement, dans le développement de modèles verticaux, Qiwan a accumulé à long terme des technologies de recherche indépendantes et des données de haute qualité "que les autres n'ont pas". Dans le domaine de l'IA, l'importance des données dépasse de loin celle des modèles, et les entreprises possédant des données uniques auront un avantage concurrentiel.
Enfin, Qiwan dispose de scénarios d'expérimentation à forte adhésion et forte activité. Comme mentionné précédemment, grâce à des produits solides et populaires, les technologies innovantes de Qiwan peuvent rapidement sortir du laboratoire, être testées et affinées par les utilisateurs et le marché, et entrer tôt dans un cycle de développement positif de "recherche et développement - amélioration de l'efficacité - augmentation des revenus".
Devenir d'abord un expert, puis trouver de nouvelles opportunités dans son domaine de prédilection
Lors de l'essor de l'Internet mobile en 2011, John Doerr, associé d'une célèbre société de capital-risque, a proposé le concept de "SoLoMo", c'est-à-dire Social (social), Local (local) et Mobile (mobile). Lorsque ce concept a été proposé, il a été largement reconnu comme la tendance future du développement d'Internet et est devenu la réponse standard guidant de nombreuses entreprises.
Revenant au point actuel, l'IA en est encore à ses débuts de développement, et cette réponse standard que tout le monde attend n'est pas encore apparue. Qu'il s'agisse de grandes entreprises ou de startups, elles ne cessent d'essayer et d'explorer, de faire des choix et de jouer, et beaucoup de choses sont encore floues et confuses. Mais pour certaines entreprises, cette "confusion" n'est pas un abîme, c'est précisément une échelle.
Comparée aux grandes entreprises qui "s'acharnent" sur les grands modèles généraux et les grands clients, Qiwan Technology ressemble davantage à un "expert avec une pensée généraliste", plus habile à résoudre des problèmes difficiles et à trouver de nouvelles voies dans des scénarios verticaux. C'est l'avantage et la confiance innés de Qiwan, qui a déjà prouvé ses capacités.
"L'état d'évolution rapide de l'industrie et l'itération rapide des capacités des grands modèles de base posent des défis aux entreprises qui font de l'ingénierie et des applications", dit Zhuang Minghao. Cela conduit les entreprises qui façonnent des produits basés sur de grands modèles à être souvent "traînées", où souvent dès qu'elles ont fini d'ajuster, le modèle sous-jacent change à nouveau, rendant difficile de garantir la stabilité du service.
L'approche de Qiwan Technology est de développer ses propres "petits" modèles verticaux basés sur ses scénarios de voix et de divertissement général profondément enracinés, de faire sa propre formation, et de former une voie de développement "produit et modèle en parallèle". "Dans ce domaine, nous pouvons garantir que ce modèle est relativement stable et ne sera pas particulièrement affecté par l'itération rapide des grands modèles généraux sous-jacents", dit Zhuang Minghao.
Jusqu'à présent, les grands modèles verticaux développés par Qiwan Technology couvrent déjà les domaines de l'audio, de la musique, du dialogue, etc., et sont plus spécialisés et plus faciles à utiliser dans la compréhension, la génération et l'interaction multimodales. Dans le "Rapport de recherche sur la compétitivité des 100 meilleures entreprises de grands modèles de l'industrie de l'intelligence artificielle en Chine 2024" publié précédemment, le grand modèle de Qiwan figure également parmi les 100 premiers.
Par exemple, dans le domaine de la musique IA, Qiwan Technology a développé le premier grand modèle multimodal de musique d'accompagnement au monde, capable de générer de la musique à partir de texte, d'audio, et même de vidéo, de supporter l'écriture de paroles IA, la composition automatique, l'arrangement, le mixage, etc., pouvant résoudre de manière intégrée les problèmes de tout le processus de création musicale des utilisateurs, permettant aux amateurs de musique ordinaires de vraiment créer de la musique sans barrière.
La musique IA est un nouveau domaine sans réponse standard. Lorsque Suno, le "ChatGPT du monde de la musique", est apparu soudainement et que l'attention du monde entier s'est portée sur ce petit secteur, Qiwan Technology y travaillait déjà depuis des années. On peut dire que Qiwan Technology est aussi l'une des premières entreprises de l'industrie à développer de grands modèles de musique et des produits d'applications natives IA.
De plus, basées sur ses technologies de grands modèles génératifs d'action et d'audio développées en interne, Qiwan Technology a développé des solutions d'entreprise intégrées telles que les humains numériques intelligents et la traduction multilingue. En plus de servir les entreprises de jeux, les agences MCN pour la création de contenu vidéo, les activités à l'étranger et autres entreprises en amont et en aval de sa chaîne industrielle, ces solutions sont également appliquées dans des scénarios tels que le service client intelligent, la vie locale, le cinéma et le tourisme culturel, couvrant un marché d'une échelle de billions, avec des partenaires incluant des entreprises renommées comme China Telecom.
Presque tous les grands produits commencent par un groupe vertical, puis se généralisent progressivement pour devenir finalement des produits nationaux. Et l'IA va changer structurellement l'expérience utilisateur et l'écosystème industriel, les vastes opportunités commerciales engendrées par les scénarios d'application verticaux sont évidentes.
La "démocratisation" de l'IA donne à tous la qualification de se tenir sur la même ligne de départ. Mais pour les startups, cette voie de Qiwan consistant à réaliser "produit et modèle en parallèle" dans des industries verticales peut être une référence mais ne peut pas être copiée directement, après tout, l'accumulation de données et de savoir-faire industriel est la clé, plus l'accumulation est longue, plus la barrière est élevée.
Saisir l'ancre de la certitude avec une "formule simple"
Dans l'ère de l'IA où le sable est tamisé par les grandes vagues, comment les entreprises peuvent-elles saisir la certitude dans l'incertitude ? Zhuang Minghao pense que ce qui détermine le succès ou l'échec est toujours une "platitude correcte", à savoir "être proche des besoins des utilisateurs".
"Notre mission a toujours été de résoudre les besoins des utilisateurs qui n'ont pas été satisfaits depuis longtemps grâce à des technologies et des produits innovants", dit Zhuang Minghao. Quelle que soit l'évolution de la technologie, l'évolution de l'environnement des capitaux, que ce soit X+IA ou IA Native, cette logique sous-jacente ne changera jamais.
Du développement de grands modèles verticaux à la construction d'un écosystème industriel de technologies d'interaction IA full-stack. Qiwan Technology a toujours insisté pour partir des besoins des utilisateurs, donnant la priorité à des scénarios verticaux typiques comme pilotes pour des percées, puis reproduisant les expériences réussies dans d'autres scénarios après le succès du pilote, réduisant ainsi l'incertitude dans la transformation IA. En faisant "un peu plus" de diverses manières, ils ont réalisé "un peu plus de stabilité" et "un peu plus de facilité d'utilisation" pour les utilisateurs et les clients. Avec cette méthode "bête" pas à pas, ils ont progressivement obtenu une "formule simple" où un engendre deux, deux engendrent trois.
En même temps, face à l'IA qui semble tout-puissante, Qiwan Technology souligne également le "sens des limites" dans son utilisation. Ces limites comprennent à la fois la définition des limites de l'intégration de l'IA avec les scénarios commerciaux, et la compréhension des limites de ce que l'IA peut réaliser techniquement au stade actuel.
"La conférence WAIC de cette année me rappelle les sensations que j'avais lorsque je participais aux conférences sur l'Internet mobile il y a une dizaine d'années", dit Zhuang Minghao. L'atmosphère dans l'énorme hall d'exposition à côté du Nid d'Oiseau de Pékin à l'époque est identique à l'état de foule que le WAIC provoque maintenant à Shanghai.
Face à un environnement concurrentiel encore plus cruel, Qiwan Technology a déjà établi certaines barrières et avantages dans des domaines verticaux, obtenant en priorité un billet pour suivre la grande vague de l'ère de l'IA. Que vont apporter de nouveau les pionniers de l'industrie de l'IA l'année prochaine ? Comment les entreprises peuvent-elles stocker plus de "munitions" ?
Zhuang Minghao croit que l'industrie de l'IA connaîtra un moment décisif dans un an ou deux. Et maintenant, nous sommes comme en train de marcher dans une forêt sombre, vous allumez une torche quelque part dans la forêt, vous ne pouvez éclairer que la zone environnante, mais en avançant lentement, vous verrez qu'il y a de faibles lumières à certains endroits, vous découvrirez plus de semblables, jusqu'à ce que ces lumières soient connectées ensemble, accueillant ensemble un monde tout nouveau.