8 empresas de IA nacionais e internacionais lançam sucessivamente novos produtos ou modelos, gerando frequentemente vídeos de mais de ### 10 segundos que estão disponíveis publicamente, alguns alegando ter alcançado a geração de vídeos ultra longos de até ### 2 minutos, desencadeando uma acalorada batalha 2.0 no campo da geração de vídeos por IA.
De um lado, ### ByteDance lançou rapidamente o produto de geração de vídeos por IA Jimo, estendendo o tempo de geração de vídeo dos habituais 3-4 segundos para 12 segundos; ### Kuaishou, que esteve em silêncio por muito tempo, lançou repentinamente o modelo Keling, cujos efeitos impressionantes geraram discussões em toda a internet, com o número de pessoas na fila chegando a quase 1 milhão em um momento.
Do outro lado, a startup ### Luma AI "abandonou o 3D pelo vídeo", lançando o Dream Machine com grande alarde; o veterano ### Runway também não ficou para trás, lançando o novo modelo Gen-3, elevando a capacidade de simulação física a novos patamares.
No campo do financiamento, a batalha é igualmente intensa. Na China, ### Aisi Technology e Shengsu Technology obtiveram sucessivamente financiamentos de nível bilionário desde março; no exterior, ### Pika recebeu um financiamento de 80 milhões de dólares em junho, dobrando sua avaliação para 500 milhões de dólares, enquanto ### Runway supostamente está preparando um financiamento de até 450 milhões de dólares.
Sora foi como uma bomba pesada, abalando o mundo da geração de vídeos por IA. Agora, após 5 meses de intensa perseguição, como estão progredindo os produtos de geração de vídeos por IA nacionais e internacionais? Eles podem competir com Sora? E quais desafios enfrentarão? Através de experiências horizontais com produtos disponíveis e discussões com profissionais e criadores, Zhidongxi analisou profundamente essas questões.
Nos testes, pude sentir claramente que a velocidade de geração de vídeo aumentou e os "acidentes" diminuíram significativamente, evoluindo de simples movimentos de "estilo PowerPoint" para movimentos com ângulos e mudanças de ação. No geral, entre os produtos gratuitos disponíveis, os melhores efeitos foram de Jimo e Keling, liderando em termos de duração, estabilidade e simulação física.
Em termos de financiamento, comparado ao período anterior ao lançamento de Sora, a densidade e os valores dos financiamentos relacionados à geração de vídeos por IA aumentaram significativamente, atraindo mais de 4,4 bilhões em 5 meses, e impulsionando também outros produtos "upstream e downstream" do processo de produção de vídeo, como edição por IA e iluminação por IA, a ganhar o favor do capital. Além disso, vários novos players entraram no mercado, alguns já obtendo financiamentos de nível bilionário sem ter lançado qualquer produto ou tecnologia.
I. Batalha tecnológica: competição em duração, alta definição e simulação física
Em 16 de fevereiro, OpenAI lançou Sora, revolucionando o cenário da geração de vídeos por IA da noite para o dia. No entanto, 5 meses se passaram, e Sora ainda é um produto futuro, sem previsão de quando estará disponível para o público em geral.
Durante esse período, grandes empresas e startups nacionais e internacionais lançaram sucessivamente novos produtos ou atualizações de modelos, a maioria dos quais já está aberta a todos os usuários, incluindo produtos com efeitos impressionantes, o que mais uma vez mudou o cenário da geração de vídeos por IA. Afinal, por melhor que seja Sora, que valor tem se não puder ser usado?
De acordo com estatísticas incompletas da Zhidongxi, desde o lançamento de Sora, pelo menos ### 8 empresas nacionais e internacionais lançaram novos produtos ou modelos, dos quais, exceto o Vidu da Shengsu Technology, todos estão ### disponíveis publicamente.
Em 21 de fevereiro, ### Stability AI lançou oficialmente a versão web do produto de geração de vídeos por IA Stable Video, aberto a todos os usuários. Embora seu modelo subjacente Stable Video Diffusion tenha sido lançado e aberto em novembro do ano passado, ainda havia certa barreira de implantação e uso como modelo, e o lançamento como versão web permitiu que mais usuários pudessem usá-lo de forma simples e conveniente.
Em 27 de abril, ### Shengsu Technology, em conjunto com a Universidade Tsinghua, lançou o modelo de vídeo de longa duração, alta consistência e alta dinâmica Vidu, que supostamente pode gerar vídeos de até 16 segundos com resolução de 1080P e é capaz de imitar o mundo físico real.
A partir dos demos divulgados, Vidu realmente alcançou bons resultados em termos de clareza, amplitude de movimento e simulação física, mas infelizmente, assim como Sora, Vidu ainda não está aberto. Zhidongxi perguntou à Shengsu Technology e soube que o produto iniciará testes internos em breve.
Em 9 de maio, ### a plataforma de criação de IA Dreamina, da ByteDance Jianying, foi renomeada para "Jimo" e lançou funções de geração de imagens e vídeos por IA, suportando a geração de vídeos de até 12 segundos.
Em 6 de junho, ### Kuaishou lançou o modelo de IA de vídeo Keling e o disponibilizou no aplicativo Kuaiying, onde os usuários podem solicitar o uso apenas preenchendo um questionário. O modelo Keling se destaca pela simulação de alta intensidade das características do mundo físico, como o problema de "comer macarrão" que derrotou muitas IAs, demonstrado nos casos de vídeo fornecidos.
Atualmente, Keling suporta a geração de vídeos com duração fixa de 5 e 10 segundos. De acordo com seu site oficial, o modelo pode gerar vídeos de até 2 minutos, com taxa de quadros de 30fps e resolução de 1080P, e funções como continuação de vídeo serão lançadas posteriormente.
Em 13 de junho, ### Luma AI, uma startup anteriormente focada em geração de 3D por IA, anunciou o lançamento da ferramenta de geração de vídeo Dream Machine, que suporta a geração de vídeos de 5 segundos a partir de texto e imagem, além de fornecer uma função de extensão de vídeo que pode estender o vídeo gerado por mais 5 segundos de cada vez.
Em 17 de junho, ### Runway lançou a versão Alpha do novo modelo Gen-3, que foi aberto para todos os usuários pagantes em 2 de julho, com uma taxa de assinatura mínima de 15 dólares por mês. Atualmente, o Gen-3 suporta a geração de vídeos de 5 e 10 segundos baseados em texto, enquanto a geração de vídeo a partir de imagem e outras ferramentas controláveis ainda não estão disponíveis.
Em 6 de julho, ### HiDream lançou o modelo HiDream 2.0 na WAIC, oferecendo três durações de geração de vídeo: 5, 10 e 15 segundos, e adicionando capacidades como geração com incorporação de texto, geração de vídeo multi-cena baseada em roteiro e consistência de IP.
Em 17 de julho, ### Haiper AI, uma startup britânica de IA anteriormente focada em reconstrução 3D por IA, anunciou que seu produto de geração de vídeo por IA, Haiper, foi atualizado para a versão 1.5, estendendo a duração para 8 segundos e fornecendo funções como extensão de vídeo e melhoria de qualidade de imagem.
Em termos de parâmetros, esses produtos de geração de vídeo por IA alcançaram primeiro um progresso significativo na duração da geração, com a duração básica de geração estendida de 2-4 segundos anteriores para 5 segundos, e mais da metade suportando durações superiores a 10 segundos, com alguns produtos oferecendo função de extensão. Atualmente, entre os produtos gratuitos disponíveis, o que gera os vídeos mais longos é o Jimo, com 12 segundos.
Em termos de efeitos visuais, houve um grande aumento na resolução e taxa de quadros, com mais produtos suportando 720P e acima, e a taxa de quadros se aproximando de 24/30fps. Anteriormente, a maioria dos produtos gerava vídeos com resolução em torno de 1024*576 e taxa de quadros de 8-12fps.
II. Batalha de produtos: teste prático de 6 "produtos disponíveis" gratuitos, "Douyin e Kuaishou" liderando
Quando Sora foi lançado pela primeira vez, Zhidongxi realizou uma experiência aprofundada com 8 ferramentas de geração de vídeo por IA disponíveis na China, e na época as diferenças ainda eram bastante evidentes, com muitos casos de "falhas". (Primeira comparação abrangente da "versão chinesa do Sora"! 15 empresas em competição, ByteDance liderando)
Então, após alguns meses de iteração e atualização, como estão se saindo esses players que já entregaram novos resultados? Zhidongxi experimentou os produtos de geração de vídeo por IA recém-lançados ou atualizados. Para ser justo, apenas as capacidades gratuitas foram testadas, e todos os vídeos selecionados foram os gerados na primeira tentativa.
É importante notar que a geração de vídeo em si tem um componente de "sorte" semelhante a "tirar cartas", e também está muito relacionada à redação das palavras-chave, portanto, um pequeno número de casos não representa completamente a capacidade do modelo.
Para o primeiro teste, escolhi uma ### cena de natureza morta, com a palavra-chave: ### Close-up de tulipas banhadas pela luz quente do pôr do sol.
Stable Video mostrou alta estabilidade nesta sugestão, com alta clareza de imagem e riqueza de cores, com o movimento focado principalmente no movimento da câmera.