La bataille des géants de l'IA : GPT-5 peut-il surpasser Sora et remodeler le paysage industriel ?

Voici la traduction en français :

Le président et PDG de Xiaomi, Lei Jun, a également déclaré récemment : "Les courts-métrages semblent ouvrir un nouveau monde, avec un rythme plus rapide, plus excitant et plus attrayant que les romans à sensation."

Alors que les courts-métrages connaissent un grand succès, certains créateurs ont également découvert la valeur de l'IA dans ce processus. ### Depuis son lancement le 13 juillet, le premier court-métrage fantastique original AIGC chinois, "Le Miroir Magique des Montagnes et des Mers", est rapidement devenu viral sur les principales plateformes vidéo, avec plus de 10 millions de vues sur Kuaishou. Grâce à l'utilisation ingénieuse de la technologie IA, les personnages mythologiques et les créatures étranges décrits dans le "Classique des montagnes et des mers" ont été transformés de texte en images vivantes à l'écran, brisant avec succès les stéréotypes sur les effets de production vidéo IA grâce à leur réalisme et leur fluidité.

De plus, ### "Sanxingdui : Révélations du Futur", produit par le centre de production AIGMS de Bona Film Group, a également obtenu des résultats et des réactions remarquables dès sa sortie. Jiang Defu, PDG de Bona Film Group, a déclaré que Bona a utilisé un processus de production cinématographique industrialisé pour créer ce court-métrage avec l'IA, dans le but d'utiliser son expérience cinématographique mature pour améliorer le contenu technique des courts-métrages IA et raconter de bonnes histoires chinoises à travers ce nouveau format.

On peut dire que le succès des courts-métrages IA a bénéficié d'un "timing parfait", avec un écosystème complet allant des outils de production aux plateformes et au public, créant un terreau fertile pour son développement.

Le succès de ces œuvres n'est pas seulement une percée technologique, mais aussi un microcosme de l'application des grands modèles multimodaux dans la création artistique. Il démontre non seulement la capacité de l'IA à traiter les aspects visuels et auditifs, mais aussi à réaliser une compréhension profonde et une expression innovante des éléments culturels grâce à l'apprentissage profond et aux technologies de traitement du langage naturel.

Attentes réduites, comment OpenAI peut-il sauver la situation

Dans ce paysage florissant, on ne peut s'empêcher de se rappeler de l'ancien "concept divin" - Sora.

En tant que nouveau grand modèle de génération vidéo lancé par OpenAI, il a effectivement suscité un engouement sans précédent lors de sa sortie. Lorsqu'OpenAI a officiellement dévoilé Sora en février, l'internet mondial et les médias sociaux ont été instantanément stupéfaits par ses puissantes fonctionnalités, rappelant le moment glorieux du lancement de GPT-3.5.

Dès sa sortie, Sora est rapidement devenu le centre d'attention du monde technologique grâce à ses trois avantages clés. Sa capacité à générer des vidéos ultra-longues jusqu'à 60 secondes et à dépasser la limite de cohérence de 4 secondes des précédents modèles de génération vidéo IA a impressionné l'industrie et le public. De plus, Sora prend en charge non seulement les prises de vue multi-angles, mais aussi le tournage fluide en plan-séquence, générant des images qui présentent parfaitement les relations lumière-ombre, les occlusions physiques et les effets de collision dans la scène, rendant le contenu vidéo plus vivant et réaliste.

À l'époque, Sora était considéré par OpenAI comme un "simulateur du monde", pas seulement un modèle de génération vidéo, mais un outil intelligent capable de comprendre et de simuler les lois physiques du monde réel.

Au début de son lancement, les gens s'émerveillaient de l'innovation technologique et de la commodité apportées par Sora. De nombreux professionnels prédisaient que Sora révolutionnerait le domaine de la production vidéo, transformant radicalement les méthodes traditionnelles de production vidéo.

Cependant, à ce jour, Sora se prépare encore pour son lancement officiel, y compris des tests antagonistes. Une équipe rouge composée d'experts de divers domaines a effectué des tests rigoureux pour identifier et atténuer les risques potentiels tels que la désinformation, les contenus haineux et les préjugés.

En même temps, OpenAI a permis aux artistes visuels, designers et cinéastes d'accéder en avant-première à Sora pour recueillir des commentaires et améliorer le modèle, en particulier pour répondre aux besoins des professionnels créatifs. Pour améliorer la transparence et la sécurité, OpenAI développe des outils pour détecter les contenus trompeurs générés par Sora et prévoit d'inclure des métadonnées C2PA dans le modèle. De plus, l'entreprise collabore avec des décideurs politiques, des éducateurs et des artistes du monde entier pour comprendre leurs préoccupations et identifier les cas d'utilisation positifs de Sora. Ces activités ont entraîné un retard dans le lancement de Sora.

Au fil du temps, l'application concrète de Sora n'a pas progressé aussi rapidement que prévu. Bien qu'OpenAI ait réalisé une percée technologique majeure, elle n'a toujours pas réussi à transformer cette technologie en un produit réellement utilisable et à le commercialiser.

Pour la majorité des utilisateurs, ce contraste est sans doute décevant et anxiogène. D'un côté, il y a l'"idéal ambitieux" que Sora puisse rapidement changer le paysage de la production vidéo, réduire les barrières à la création et permettre à davantage de personnes de produire facilement du contenu vidéo de haute qualité ; de l'autre, il y a la "réalité crue" du processus de mise en œuvre lent de Sora.

Le dilemme de Sora ne reflète pas seulement les retards ou les insuffisances dans la réalisation technique, mais plus profondément les défis généraux auxquels est confrontée la commercialisation de la technologie IA actuelle. De l'optimisation des algorithmes au traitement des données, du développement des habitudes des utilisateurs à l'amélioration de l'acceptation du marché, chaque étape nécessite un polissage minutieux et du temps pour mûrir. Dans cette ère au rythme rapide, l'inadéquation entre le désir de satisfaction immédiate des utilisateurs et la courbe de maturité de la technologie IA conduit souvent à un énorme écart entre les attentes et la réalité.

Il est facile de conquérir, difficile de garder ; GPT-5, du culte de la technologie à la crise de confiance

Outre Sora en retraite, la sortie soudaine de GPT-4o mini a de nouveau fait réagir l'opinion publique, certains internautes plaisantant : "GPT-3.5 est au chômage, GPT-5 est-il loin ? Altman : Oui, il l'est !" Bien que le lancement de GPT-5 semble illusoire, la plupart des gens croient toujours fermement aux capacités technologiques d'OpenAI.

Cependant, la concurrence et les changements dans le domaine de l'IA s'intensifient également. Non seulement de plus en plus d'entreprises et d'instituts de recherche se joignent au développement et à l'application de la technologie IA, mais de nombreux produits IA verticaux émergent constamment, gagnant la faveur des utilisateurs grâce à un positionnement plus précis et des services plus personnalisés.

En comparaison, l'attrait d'OpenAI dans l'industrie semble avoir diminué, et sa position de "domination du marché" devient de plus en plus difficile à maintenir.

Comme lorsqu'OpenAI a officiellement cessé de fournir des services API à la Chine et à d'autres régions le 9 de ce mois, on pensait qu'il s'agissait d'un nouveau monopole technologique, mais contrairement aux attentes, cela n'a pas suscité de grand remous en Chine.

Face à la "coupure" d'OpenAI, la réaction des entreprises chinoises cette fois-ci a été très positive. Dès que la nouvelle a éclaté, des entreprises de grands modèles comme Zhipu AI, Baidu, Alibaba et Tencent ont rapidement lancé des "plans de déménagement" pour leurs services API, commençant à absorber les clients qui utilisaient auparavant les services API d'OpenAI en réduisant les prix et en simplifiant les processus.

Quant à savoir pourquoi ils ont choisi d'abandonner le marché chinois, nous n'avons pas besoin de chercher la réponse, mais la performance des fabricants de grands modèles nationaux suffit à prouver que ### du point de vue de l'environnement du marché et des conditions de déploiement des grands modèles, les grands modèles nationaux peuvent être le premier choix des utilisateurs.

Dans ce qu'on appelle "l'année des grands modèles", nous parlions de la taille et des capacités des modèles, mais en seulement un an, l'accélération technologique a déjà commencé à faire réfléchir les entreprises sur la façon de mettre en œuvre et de commercialiser. La récente explosion de produits comme Kuaishou Keling et SenseTime Vimi est un microcosme de la mise en œuvre technologique. L'innovation continue est devenue la pierre angulaire de la survie et du développement des entreprises.

La Maison des Grands Modèles estime que pour OpenAI, l'innovation continue signifie explorer constamment de nouveaux domaines de l'intelligence artificielle, repousser les limites technologiques et créer des produits qui résolvent réellement des problèmes concrets. Le lancement de GPT-5 ne devrait pas être une simple mise à niveau de la génération précédente, mais un saut qualitatif, afin de maintenir la position de leader d'OpenAI dans le domaine de l'intelligence artificielle.

Postface : Le multimodal peut-il devenir une nouvelle opportunité de dépassement ?

L'explosion des courts-métrages IA est sans aucun doute un phénomène remarquable, mais ce n'est que la pointe de l'iceberg du développement du domaine multimodal en Chine. Ce phénomène n'est pas une simple démonstration de progrès technologique isolée, mais une manifestation complète de l'intégration profonde de l'innovation technologique avec la culture locale, la capture précise des besoins du marché et le développement collaboratif de toute la chaîne industrielle.

Si nous élargissons notre perspective au-delà du phénomène spécifique des courts-métrages IA, cette intégration profonde de l'innovation technologique avec la culture locale, les besoins du marché et l'écosystème industriel est précisément l'avantage clé de la Chine dans le domaine de l'intelligence artificielle multimodale. Que ce soit dans le domaine du diagnostic précis en santé, la transformation intelligente de l'éducation, ou le développement rapide de la fabrication intelligente et de l'industrie 4.0, l'intelligence artificielle multimodale crée de nouvelles