El conflicto de IA en video se intensifica: gigantes compiten por tecnología clave, financiación de startups se dispara

La misteriosa ausencia de Sora durante 150 días.

8 empresas de IA nacionales e internacionales lanzan sucesivamente nuevos productos o modelos, generando fácilmente videos de más de ### 10 segundos que están disponibles públicamente, algunos afirman haber logrado generar videos ultra largos de hasta ### 2 minutos, desatando una acalorada batalla 2.0 en el campo de la generación de videos por IA.

Por un lado, ### ByteDance se adelantó y lanzó el producto de generación de videos por IA Jiemeng, extendiendo la duración de la generación de videos de los habituales 3-4 segundos a 12 segundos; ### Kuaishou, que había estado en silencio durante mucho tiempo, lanzó repentinamente el modelo Keling, cuyos sorprendentes efectos provocaron un acalorado debate en toda la red, con casi 1 millón de personas haciendo cola en un momento dado.

Por otro lado, la startup ### Luma AI "abandonó el 3D por el video", entrando en escena con gran fanfarria al lanzar Dream Machine; el veterano ### Runway tampoco se quedó atrás, lanzando la nueva generación del modelo Gen-3, llevando las capacidades de simulación física a nuevas alturas.

En el campo de la financiación, la batalla es igualmente intensa. A nivel nacional, ### Aisi Technology y Shengsu Technology han obtenido sucesivamente financiaciones de nivel de cientos de millones desde marzo; en el extranjero, ### Pika obtuvo una financiación de 80 millones de dólares en junio, duplicando su valoración a 500 millones de dólares, mientras que se rumoreaba que ### Runway estaba preparando una ronda de financiación de hasta 450 millones de dólares.

Sora cayó como una bomba, sacudiendo el mundo de la generación de videos por IA. Después de 5 meses de intensa persecución, ¿cómo han progresado los productos de generación de videos por IA nacionales e internacionales? ¿Pueden competir con Sora? ¿Y a qué desafíos se enfrentarán? A través de la experiencia horizontal con los productos disponibles y discusiones con profesionales y creadores, Zhidongxi analizó en profundidad estas cuestiones.

En las pruebas prácticas, pude sentir claramente que la velocidad de generación de videos se ha acelerado, los "accidentes" se han reducido significativamente, y ha evolucionado de simples desplazamientos "estilo PowerPoint" a movimientos con cambios de ángulo y acción. En general, entre los productos gratuitos disponibles, los mejores en términos de duración, estabilidad y simulación física son Jiemeng y Keling.

En cuanto a la financiación, en comparación con antes del lanzamiento de Sora, la densidad y el monto de la financiación relacionada con la generación de videos por IA han aumentado significativamente, atrayendo más de 4.4 mil millones en 5 meses, y también impulsando el favor del capital hacia otros productos "upstream y downstream" del proceso de producción de videos, como la edición por IA y la iluminación por IA. Además, varios nuevos jugadores han entrado en el campo, algunos incluso han obtenido financiación de nivel de cientos de millones sin haber lanzado ningún producto o tecnología.

I. Guerra tecnológica: competencia en duración, alta definición y simulación física

El 16 de febrero, OpenAI lanzó Sora, revolucionando de la noche a la mañana el panorama de la generación de videos por IA. Sin embargo, 5 meses después, Sora sigue siendo un producto futuro, y parece que aún falta mucho para que esté disponible para el público en general.

Durante este tiempo, grandes empresas y startups nacionales e internacionales han lanzado sucesivamente nuevos productos o actualizaciones de modelos, la mayoría de los cuales ya están abiertos a todos los usuarios, incluyendo algunos productos con efectos sorprendentes, lo que ha vuelto a cambiar el panorama de la generación de videos por IA. Después de todo, por muy bueno que sea Sora, ¿de qué sirve si no se puede usar?

Según estadísticas incompletas de Zhidongxi, desde el lanzamiento de Sora, al menos ### 8 empresas nacionales e internacionales han lanzado nuevos productos o modelos, de los cuales todos ### están disponibles públicamente excepto Vidu de Shengsu Technology.

El 21 de febrero, ### Stability AI lanzó oficialmente la versión web de su producto de generación de videos por IA, Stable Video, abierto a todos los usuarios. Aunque su modelo subyacente, Stable Video Diffusion, ya se había lanzado y de código abierto en noviembre del año pasado, como modelo aún tenía cierto umbral de implementación y uso, pero después de empaquetarlo y lanzarlo como versión web, más usuarios pueden usarlo de manera simple y conveniente.

El 27 de abril, ### Shengsu Technology, en colaboración con la Universidad de Tsinghua, lanzó Vidu, un modelo de video de larga duración, alta consistencia y alta dinámica, que según se afirma puede generar videos de hasta 16 segundos con una resolución de 1080P, y puede imitar el mundo físico real.

A juzgar por los demos publicados, Vidu ha logrado muy buenos resultados en términos de claridad, amplitud de movimiento y simulación física, pero lamentablemente, al igual que Sora, Vidu aún no está abierto. Zhidongxi preguntó a Shengsu Technology y se enteró de que el producto iniciará las pruebas beta en un futuro próximo.

El 9 de mayo, la plataforma de creación de IA Dreamina de ### ByteDance Jianying cambió su nombre a "Jiemeng" y lanzó funciones de generación de imágenes y videos por IA, con soporte para generar videos de hasta 12 segundos.

El 6 de junio, ### Kuaishou lanzó el modelo de IA de video Keling y lo implementó en la aplicación Kuaiying, donde los usuarios solo necesitan completar un cuestionario para solicitar su uso. El modelo Keling se destaca por su fuerte simulación de las características del mundo físico, como el problema de "comer fideos" que ha derrotado a muchas IA, lo cual se demuestra en los casos de video proporcionados.

Actualmente, Keling admite la generación de videos de duración fija de 5 y 10 segundos. Según la introducción en su sitio web oficial, el modelo puede generar videos de hasta 2 minutos, con una tasa de fotogramas de 30fps y una resolución de 1080P, y próximamente se lanzarán funciones como la continuación de videos.

El 13 de junio, ### Luma AI, una startup que anteriormente se centraba principalmente en la generación de 3D por IA, anunció el lanzamiento de la herramienta de generación de videos Dream Machine, que admite la generación de videos de 5 segundos de duración a partir de texto e imágenes, y también proporciona una función de extensión de video que puede extender un video ya generado en 5 segundos adicionales.

El 17 de junio, ### Runway lanzó la versión Alpha de su nuevo modelo de generación Gen-3, que se abrió a todos los usuarios de pago el 2 de julio, con una tarifa de suscripción mínima de 15 dólares al mes. Gen-3 actualmente admite la generación de videos de 5 y 10 segundos de duración basados en texto, mientras que la generación de video a partir de imágenes y otras herramientas controlables aún no están disponibles.

El 6 de julio, ### HiDream lanzó el modelo HiDream 2.0 en WAIC, ofreciendo tres duraciones de generación de video de 5, 10 y 15 segundos, y agregando capacidades como generación con incrustación de texto, generación de video de múltiples tomas basada en guiones y consistencia continua de IP.

El 17 de julio, ### Haiper AI, una startup de IA británica que anteriormente se centraba en la reconstrucción 3D por IA, anunció que su producto de generación de videos por IA, Haiper, se actualizó a la versión 1.5, extendiendo la duración a 8 segundos y proporcionando funciones como extensión de video y mejora de calidad de imagen.

Desde el punto de vista de los parámetros, estos productos de generación de videos por IA han logrado un progreso significativo en la duración de generación, extendiendo la duración básica de generación de los anteriores 2-4 segundos a 5 segundos, y más de la mitad admiten duraciones superiores a 10 segundos, con algunos productos que ofrecen funciones de extensión. Actualmente, entre los productos gratuitos disponibles, el que genera los videos más largos es Jiemeng, con 12 segundos.

En términos de efectos visuales, ha habido un gran aumento en la resolución y la tasa de fotogramas, con más productos que admiten 720P y superior, y la tasa de fotogramas se acerca a 24/30fps, mientras que los productos anteriores generalmente generaban videos con una resolución de alrededor de 1024*576 y una tasa de fotogramas de 8-12fps.

II. Guerra de productos: prueba práctica de 6 productos gratuitos "disponibles", "Douyin y Kuaishou" lideran

Cuando Sora se lanzó por primera vez, Zhidongxi realizó una experiencia en profundidad con 8 herramientas de generación de videos por IA disponibles en China, y en ese momento las diferencias eran bastante evidentes, con muchos casos de "accidentes". (Primera comparación exhaustiva de la "versión china de Sora"! 15 empresas compiten, ByteDance lidera)

Entonces, después de varios meses de iteración y actualización, ¿cómo se desempeñan estos jugadores que ya han entregado nuevas respuestas? Zhidongxi experimentó con los productos de generación de videos por IA recién lanzados o actualizados. Por razones de equidad, solo se probaron las capacidades gratuitas y se seleccionaron los videos generados en el primer intento.

Cabe señalar que la generación de videos en sí tiene un componente de "suerte" similar a sacar cartas, y también está muy relacionada con la redacción de las indicaciones, por lo que unos pocos casos no representan completamente la capacidad del modelo.

Para la primera prueba, elegí una ### escena de naturaleza muerta, con la indicación: ### Primer plano de tulipanes bañados por la cálida luz del atardecer.

Stable Video mostró una alta estabilidad con esta indicación, al mismo tiempo que la claridad de la imagen y la riqueza del color eran relativamente altas, con el movimiento principalmente centrado en el movimiento de la cámara.