La batalla de los gigantes de la IA: ¿Podrá GPT-5 superar a Sora y remodelar el panorama de la industria?

La tendencia explosiva de los cortometrajes de IA revela el desarrollo de los modelos multimodales a gran escala. Este fenómeno no solo refleja el potencial de aplicación de la tecnología de inteligencia artificial en el campo creativo, sino que también demuestra la capacidad de los modelos multimodales para integrar diversas formas de información como texto, imágenes y video. Con el continuo avance de la tecnología, los modelos multimodales a gran escala están remodelando la forma en que se crea y consume el contenido, trayendo nuevas oportunidades y desafíos a la industria del entretenimiento digital.

El presidente y CEO de Xiaomi, Lei Jun, también declaró recientemente: "Los cortometrajes parecen haber abierto un nuevo mundo, con un ritmo más rápido, más emocionante y más atractivo que las novelas de fantasía".

Mientras los cortometrajes se vuelven virales, algunos creadores también han descubierto el valor de la IA en este proceso. ### "El espejo mágico de las montañas y los mares", el primer cortometraje de fantasía original generado por IA en China, se ha vuelto rápidamente popular en las principales plataformas de video desde su lanzamiento el 13 de julio, con más de 10 millones de visualizaciones en Kuaishou. A través del ingenioso uso de la tecnología de IA, los personajes mitológicos y criaturas extrañas descritos en el "Clásico de las montañas y los mares" se han transformado de texto a imágenes vívidas en la pantalla, rompiendo con éxito los estereotipos previos sobre los efectos de producción de video con IA gracias a su realismo y fluidez.

Además, ### "Sanxingdui: Revelaciones del futuro", producido por el Centro de Producción AIGMS de Bona Film Group, también ha logrado resultados y respuestas notables desde su lanzamiento. Jiang Defu, CEO de Bona Film Group, afirmó que Bona utilizó un proceso de producción cinematográfica industrializado para crear este cortometraje con IA, con el objetivo de aprovechar su experiencia cinematográfica madura para mejorar el contenido técnico de los cortometrajes de IA y contar bien las historias chinas a través de este nuevo formato.

Se puede decir que el éxito de los cortometrajes de IA ha aprovechado al máximo las "condiciones favorables del cielo, la tierra y las personas", creando un terreno fértil para su desarrollo desde las herramientas de producción hasta las plataformas y la audiencia, con una cadena ecológica completa.

El éxito de estas obras no es solo un avance tecnológico, sino también un microcosmos de la aplicación de modelos multimodales a gran escala en la creación artística. Demuestra no solo la capacidad de la IA para procesar elementos visuales y auditivos, sino también una comprensión profunda y una expresión innovadora de elementos culturales a través del aprendizaje profundo y las tecnologías de procesamiento del lenguaje natural.

¿Con qué puede salvar OpenAI las expectativas reducidas?

En medio de este escenario floreciente, es inevitable recordar al antiguo "dios conceptual" - Sora.

Como el nuevo modelo de generación de video a gran escala lanzado por OpenAI, Sora ciertamente causó un revuelo sin precedentes cuando se lanzó inicialmente. Cuando OpenAI reveló oficialmente el misterio de Sora en febrero, Internet y las redes sociales globales se conmocionaron instantáneamente por sus poderosas funciones, como si se repitiera el momento glorioso del lanzamiento de GPT-3.5.

Tan pronto como se lanzó, Sora se convirtió rápidamente en el foco de atención del mundo tecnológico con sus tres ventajas principales. La capacidad de generar videos de hasta 60 segundos de duración y superar el cuello de botella de coherencia de 4 segundos de los modelos anteriores de generación de video con IA asombró tanto a la industria como al público. Además, Sora no solo admite múltiples ángulos de cámara, sino que también puede lograr una filmación fluida de una sola toma, generando imágenes que muestran perfectamente las relaciones de luz y sombra, los efectos de oclusión física y colisión en la escena, haciendo que el contenido del video sea más vívido y realista.

En ese momento, OpenAI consideraba a Sora como un "simulador del mundo", no solo un modelo de generación de video, sino una herramienta inteligente capaz de comprender y simular las leyes físicas del mundo real.

En las primeras etapas del lanzamiento, la gente se maravilló de la innovación tecnológica y la conveniencia que Sora aportaba. Muchos profesionales predijeron que Sora revolucionaría el campo de la producción de video, cambiando fundamentalmente los métodos tradicionales de producción.

Sin embargo, hasta el día de hoy, Sora todavía se está preparando para su lanzamiento oficial, incluyendo pruebas adversarias, donde un equipo rojo compuesto por expertos de varios campos lo ha sometido a pruebas rigurosas para identificar y mitigar riesgos potenciales como la desinformación, el contenido de odio y los sesgos.

Al mismo tiempo, OpenAI ha permitido que artistas visuales, diseñadores y cineastas accedan a Sora por adelantado para recopilar comentarios y mejorar el modelo, especialmente para las necesidades de los profesionales creativos. Para aumentar la transparencia y la seguridad, OpenAI está desarrollando herramientas que puedan detectar contenido engañoso generado por Sora y planea incluir metadatos C2PA en el modelo. Además, la empresa está colaborando con legisladores, educadores y artistas de todo el mundo para comprender sus preocupaciones e identificar casos de uso positivos para Sora. Estas actividades han llevado a un retraso en el lanzamiento de Sora.

Con el paso del tiempo, la aplicación práctica de Sora no ha avanzado tan rápidamente como se esperaba. Aunque OpenAI ha logrado un gran avance tecnológico, aún no ha podido convertir esta tecnología en un producto realmente utilizable y lanzarlo al mercado.

Para la mayoría de los usuarios, este contraste sin duda ha causado decepción y ansiedad. Por un lado, está el "ideal robusto" de que Sora pueda cambiar rápidamente el panorama de la producción de video, reduciendo las barreras de creación y permitiendo que más personas produzcan fácilmente contenido de video de alta calidad; por otro lado, está la "realidad escueta" del lento progreso en la implementación de Sora.

El dilema de Sora no es solo un retraso o deficiencia en la implementación técnica, sino que refleja más profundamente los desafíos generales que enfrenta la tecnología de IA en el proceso de comercialización. Desde la optimización de algoritmos hasta el procesamiento de datos, desde el cultivo de hábitos de usuario hasta la mejora de la aceptación del mercado, cada paso requiere un pulido meticuloso y tiempo de sedimentación. Y en esta era de ritmo acelerado, la discrepancia entre el deseo de los usuarios por la satisfacción inmediata y la curva de madurez de la tecnología de IA a menudo conduce a una gran brecha entre las expectativas y la realidad.

Es fácil conquistar, difícil mantener; GPT-5 de la adoración tecnológica a la crisis de confianza

Además de Sora, que está en reclusión entrenando, el repentino lanzamiento de GPT-4o mini ha vuelto a encender los rumores, con algunos usuarios bromeando: "GPT-3.5 ha quedado obsoleto, ¿estará lejos GPT-5? Altman: ¡Sí lo estará!" Aunque el lanzamiento de GPT-5 parece un espejismo, la mayoría de la gente sigue confiando en la capacidad tecnológica de OpenAI.

Sin embargo, la competencia y los cambios en el campo de la IA también se están intensificando. No solo hay cada vez más empresas e instituciones de investigación que se unen al desarrollo y aplicación de la tecnología de IA, sino que también están surgiendo constantemente productos de IA en campos verticales, ganando el favor de los usuarios con un posicionamiento más preciso y servicios más personalizados.

En comparación, el atractivo de OpenAI en la industria parece haber disminuido, y su posición de "dominar el mundo" se está volviendo cada vez más difícil de mantener.

Al igual que cuando OpenAI dejó oficialmente de proporcionar servicios de API a China y otras regiones el día 9 de este mes, lo que se pensó que sería un nuevo monopolio tecnológico resultó ser lo contrario, y no causó un gran revuelo en China.

Frente al "corte de suministro" de OpenAI, esta vez las empresas nacionales reaccionaron de manera muy positiva. Tan pronto como se conoció la noticia, empresas de modelos a gran escala como Zhipu AI, Baidu, Alibaba y Tencent lanzaron rápidamente "planes de mudanza" para sus servicios de API, comenzando a absorber clientes que anteriormente utilizaban los servicios de API de OpenAI mediante la reducción de precios y la simplificación de procesos.

No necesitamos buscar respuestas sobre por qué eligieron abandonar el mercado chino, pero el desempeño de los fabricantes nacionales de modelos a gran escala es suficiente para demostrar que, ### desde el punto de vista del entorno del mercado y las condiciones de implementación de modelos a gran escala, los modelos a gran escala nacionales pueden ser la opción preferida de los usuarios.

En el llamado "año de los modelos a gran escala", hablamos sobre el tamaño y las capacidades de los modelos, y el rápido aumento de la tecnología en solo un año ya ha comenzado a hacer que las empresas piensen en cómo implementar y comercializar. La reciente explosión concentrada de productos como Kuaishou Keling y SenseTime Vimi es un microcosmos de la implementación tecnológica. La innovación continua se ha convertido en la piedra angular de la supervivencia y el desarrollo de las empresas.

La familia de modelos a gran escala cree que para OpenAI, la innovación continua significa explorar constantemente nuevas áreas de la inteligencia artificial, impulsar los límites de la tecnología y crear productos que realmente puedan resolver problemas reales. El lanzamiento de GPT-5 no debería ser simplemente una actualización de la generación anterior, sino un salto cualitativo para mantener la posición de liderazgo de OpenAI en el campo de la inteligencia artificial.

Epílogo: ¿Puede la multimodalidad convertirse en una nueva oportunidad para adelantar en la curva?

El auge de los cortometrajes de IA es sin duda un fenómeno notable, pero es solo la punta del iceberg del desarrollo del campo multimodal en China. Este fenómeno está lejos de ser una demostración aislada de progreso tecnológico, sino más bien una manifestación integral de la profunda integración de la innovación tecnológica con la cultura local, la captura precisa de las demandas del mercado y el desarrollo colaborativo de toda la cadena industrial.

Si alejamos nuestra mirada del fenómeno específico de los cortometrajes de IA, esta profunda integración de la innovación tecnológica con la cultura local, las demandas del mercado y el ecosistema industrial es precisamente la ventaja clave de China en el campo de la inteligencia artificial multimodal. Ya sea en el campo del diagnóstico preciso en la atención médica, la transformación inteligente de la industria educativa, o el rápido desarrollo de la fabricación inteligente y la Industria 4.0, la inteligencia artificial multimodal está creando nuevas