8 entreprises d'IA nationales et étrangères lancent successivement de nouveaux produits ou modèles, générant couramment des vidéos de plus de ### 10 secondes accessibles au public, certaines prétendant même pouvoir générer des vidéos ultra-longues allant jusqu'à ### 2 minutes, déclenchant ainsi une bataille 2.0 intense dans le domaine de la génération vidéo par IA.
D'un côté, ### ByteDance a pris les devants en lançant son produit de génération vidéo par IA Jìmèng, allongeant la durée de génération vidéo de 3-4 secondes habituelles à 12 secondes ; ### Kuaishou, resté silencieux depuis longtemps, a soudainement lancé son grand modèle Kěling, dont les effets impressionnants ont suscité des discussions animées sur internet, avec près de 100 000 personnes en file d'attente à un moment donné.
De l'autre côté, la startup ### Luma AI a "abandonné la 3D pour la vidéo", faisant une entrée remarquée avec le lancement de Dream Machine ; le vétéran ### Runway n'est pas en reste, dévoilant son nouveau modèle Gen-3 qui pousse les capacités de simulation physique à un nouveau niveau.
Sur le front du financement, la bataille fait également rage. En Chine, ### Aisi Technology et Shengsu Technology ont obtenu des financements de l'ordre du milliard depuis mars ; à l'étranger, ### Pika a levé 80 millions de dollars en juin, doublant sa valorisation à 500 millions de dollars, tandis que ### Runway serait en train de préparer une levée de fonds pouvant atteindre 450 millions de dollars.
Sora a eu l'effet d'une bombe dans le monde de la génération vidéo par IA. Après 5 mois de course effrénée, où en sont les produits de génération vidéo par IA nationaux et internationaux ? Peuvent-ils rivaliser avec Sora ? Quels défis devront-ils relever ? Zhidongxi a analysé en profondeur ces questions à travers des tests comparatifs des produits disponibles et des discussions avec des professionnels et des créateurs.
Lors des tests, j'ai clairement ressenti une accélération de la vitesse de génération vidéo et une réduction significative des "ratés", passant d'un simple déplacement "style PowerPoint" à des mouvements avec des changements d'angle et d'action. Dans l'ensemble, parmi les produits gratuits disponibles, Jìmèng et Kěling ont montré les meilleurs résultats, prenant la tête en termes de durée, de stabilité et de simulation physique.
En matière de financement, comparé à la période précédant le lancement de Sora, la fréquence et les montants des financements liés à la génération vidéo par IA ont considérablement augmenté, attirant plus de 4,4 milliards en 5 mois, et stimulant également l'intérêt des investisseurs pour d'autres produits "en amont et en aval" du processus de production vidéo, tels que le montage IA et l'éclairage IA. De plus, plusieurs nouveaux acteurs sont entrés sur le marché, certains ayant même levé des fonds de l'ordre du milliard sans avoir encore lancé de produit ou de technologie.
I. La bataille technologique : durée, haute définition et simulation physique
Le 16 février, OpenAI a lancé Sora, bouleversant du jour au lendemain le paysage de la génération vidéo par IA. Cependant, 5 mois plus tard, Sora reste un produit futur, et son accessibilité au grand public semble encore lointaine.
Entre-temps, les grandes entreprises et les startups nationales et étrangères se sont empressées de lancer de nouveaux produits ou des mises à niveau de modèles, la plupart étant déjà ouverts à tous les utilisateurs, avec des produits aux effets impressionnants, ce qui a de nouveau modifié le paysage de la génération vidéo par IA. Après tout, à quoi sert Sora, aussi bon soit-il, s'il n'est pas accessible ?
Selon les statistiques incomplètes de Zhidongxi, au moins ### 8 entreprises nationales et étrangères ont lancé de nouveaux produits ou modèles depuis la sortie de Sora, tous ### accessibles au public à l'exception de Vidu de Shengsu Technology.
Le 21 février, ### Stability AI a officiellement lancé la version web de son produit de génération vidéo par IA, Stable Video, ouverte à tous les utilisateurs. Bien que son modèle sous-jacent, Stable Video Diffusion, ait été publié en open source en novembre dernier, il présentait encore certaines barrières de déploiement et d'utilisation en tant que modèle. La version web packagée permet désormais à plus d'utilisateurs de l'utiliser facilement.
Le 27 avril, ### Shengsu Technology, en collaboration avec l'Université Tsinghua, a lancé Vidu, un grand modèle vidéo de longue durée, haute cohérence et haute dynamique, capable de générer des vidéos allant jusqu'à 16 secondes avec une résolution de 1080P, et pouvant imiter le monde physique réel.
D'après les démos publiées, Vidu a effectivement obtenu de très bons résultats en termes de clarté, d'amplitude de mouvement et de simulation physique. Malheureusement, comme Sora, Vidu n'est pas encore ouvert. Zhidongxi a appris auprès de Shengsu Technology que le produit entrera en phase de test interne prochainement.
Le 9 mai, ### la plateforme de création IA Dreamina de ByteDance Jianying a été rebaptisée "Jìmèng" et a lancé des fonctions de génération d'images et de vidéos par IA, supportant la génération de vidéos jusqu'à 12 secondes.
Le 6 juin, ### Kuaishou a lancé le grand modèle IA vidéo Kěling, disponible sur l'application Kuaiying. Les utilisateurs peuvent demander à l'utiliser en remplissant simplement un questionnaire. Le grand modèle Kěling se distingue par sa forte simulation des caractéristiques du monde physique, comme le problème de "manger des nouilles" qui a défié de nombreuses IA, illustré dans les exemples vidéo fournis.
Actuellement, Kěling supporte la génération de vidéos de 5 et 10 secondes. Selon son site officiel, le modèle peut générer des vidéos allant jusqu'à 2 minutes, avec un taux de 30 images par seconde et une résolution de 1080P. Des fonctions telles que la continuation de vidéo seront ajoutées ultérieurement.
Le 13 juin, ### Luma AI, une startup précédemment focalisée sur la génération 3D par IA, a annoncé le lancement de l'outil de génération vidéo Dream Machine, supportant la génération de vidéos de 5 secondes à partir de texte et d'images, ainsi qu'une fonction d'extension vidéo permettant de prolonger une vidéo générée de 5 secondes supplémentaires.
Le 17 juin, ### Runway a lancé la version Alpha de son nouveau modèle Gen-3, ouvert à tous les utilisateurs payants le 2 juillet, avec un abonnement à partir de 15 dollars par mois. Gen-3 supporte actuellement la génération de vidéos de 5 et 10 secondes basée sur du texte, tandis que la génération de vidéo à partir d'image et d'autres outils de contrôle ne sont pas encore disponibles.
Le 6 juillet, ### HiDream a lancé son grand modèle HiDream 2.0 lors du WAIC, offrant trois durées de génération vidéo (5, 10, 15 secondes), et ajoutant des capacités telles que la génération avec intégration de texte, la génération de vidéos multi-plans basées sur des scénarios, et la cohérence IP.
Le 17 juillet, ### Haiper AI, une startup britannique d'IA précédemment focalisée sur la reconstruction 3D par IA, a annoncé la mise à niveau de son produit de génération vidéo par IA, Haiper, vers la version 1.5, allongeant la durée à 8 secondes et ajoutant des fonctions d'extension vidéo et d'amélioration de la qualité d'image.
Du point de vue des paramètres, ces produits de génération vidéo par IA ont d'abord réalisé des progrès significatifs en termes de durée de génération, passant de 2-4 secondes à 5 secondes de base, avec plus de la moitié supportant des durées supérieures à 10 secondes, et certains produits offrant des fonctions d'extension. Actuellement, parmi les produits gratuits disponibles, celui générant les vidéos les plus longues est Jìmèng avec 12 secondes.
En termes d'effets visuels, la résolution et le taux d'images par seconde ont considérablement augmenté, avec plus de produits supportant le 720P et au-delà, et le taux d'images se rapprochant de 24/30 fps, alors que les produits précédents généraient généralement des vidéos avec une résolution d'environ 1024*576 et un taux d'images de 8-12 fps.
II. La bataille des produits : test pratique de 6 produits gratuits "disponibles", "ByteDance et Kuaishou" en tête
Lors du lancement de Sora, Zhidongxi avait réalisé une expérience approfondie sur 8 outils de génération vidéo par IA disponibles en Chine, révélant alors des écarts assez importants et de nombreux "ratés". (Premier comparatif complet de la "version chinoise de Sora" ! 15 entreprises s'affrontent, ByteDance en tête)
Après plusieurs mois d'itérations et de mises à niveau, comment se comportent ces acteurs qui ont déjà présenté leurs nouvelles réponses ? Zhidongxi a testé les produits de génération vidéo par IA nouvellement lancés ou mis à niveau. Pour des raisons d'équité, seules les capacités gratuites ont été testées, et la première vidéo générée a été systématiquement sélectionnée.
Il est important de noter que la génération vidéo comporte en soi un élément de "chance" similaire à tirer une carte, et dépend également beaucoup de la rédaction des prompts. Par conséquent, un petit nombre d'exemples ne représente pas entièrement les capacités du modèle.
Pour le premier test, j'ai choisi une ### scène de nature morte, avec le prompt : ### Gros plan sur des tulipes baignées dans la lumière chaude du soleil couchant.
Stable Video a montré une grande stabilité avec ce prompt, avec une haute clarté d'image et une riche palette de couleurs. Le mouvement est principalement celui de la caméra.