Disputa dos gigantes da IA: O GPT-5 poderá superar o Sora e remodelar o cenário da indústria?

A tendência explosiva dos curtas-metragens de IA revela o desenvolvimento dos modelos multimodais de grande escala. Este fenômeno não só reflete o potencial de aplicação da tecnologia de inteligência artificial no campo criativo, mas também demonstra a capacidade dos modelos multimodais de integrar várias formas de informação, como texto, imagem e vídeo. Com o avanço contínuo da tecnologia, os modelos multimodais de grande escala estão remodelando a forma como o conteúdo é criado e consumido, trazendo novas oportunidades e desafios para a indústria do entretenimento digital.

O presidente e CEO da Xiaomi, Lei Jun, também afirmou recentemente: "As séries curtas parecem ter aberto um novo mundo, com um ritmo mais rápido, mais emocionante e mais atraente do que as histórias de satisfação instantânea."

Ao mesmo tempo em que as séries curtas se tornaram um fenômeno, alguns criadores também descobriram o valor da IA nesse processo. ### A primeira minissérie fantástica original de AIGC da China, "Espelho Mágico das Montanhas e Mares", desde seu lançamento em 13 de julho, rapidamente se tornou viral em todas as principais plataformas de vídeo, com mais de 10 milhões de visualizações no Kuaishou. Através do uso inteligente da tecnologia de IA, os personagens mitológicos e criaturas estranhas descritos no "Clássico das Montanhas e Mares" foram transformados de texto em imagens vívidas na tela, quebrando com sucesso os estereótipos anteriores sobre os efeitos da produção de vídeo por IA com sua representação realista e fluida.

Além disso, ### "Sanxingdui: Revelações do Futuro", produzido pelo Centro de Produção AIGMS da Bona Film Group, também alcançou resultados e repercussão significativos assim que foi lançado. Jiang Defu, CEO da Bona Film Group, afirmou que a Bona utilizou um processo de produção cinematográfica industrializado para criar esta série curta usando IA, com o objetivo de aproveitar sua experiência madura em cinema para elevar o conteúdo técnico das séries curtas de IA e contar bem as histórias chinesas através desse novo formato.

Pode-se dizer que o sucesso das séries curtas de IA se beneficiou de uma combinação perfeita de "tempo, lugar e pessoas", desde as ferramentas de produção até as plataformas e o público, criando um terreno fértil para seu desenvolvimento através de uma cadeia ecológica completa.

O sucesso dessas obras não é apenas um avanço tecnológico, mas também um microcosmo da aplicação de modelos multimodais em grande escala na criação artística. Elas demonstram não apenas a capacidade de processamento visual e auditivo da IA, mas também realizam uma compreensão profunda e expressão inovadora de elementos culturais através de tecnologias de aprendizado profundo e processamento de linguagem natural.

Com expectativas reduzidas, o que a OpenAI tem para salvar a situação

Em meio a esse cenário próspero, não podemos deixar de lembrar daquele que já foi o "deus dos conceitos" - Sora.

Como o mais novo modelo de geração de vídeo em grande escala lançado pela OpenAI, Sora realmente causou um alvoroço sem precedentes quando foi anunciado. Quando a OpenAI finalmente revelou o mistério de Sora em fevereiro, a internet global e as mídias sociais foram instantaneamente abaladas por suas poderosas funcionalidades, como se revivessem o momento glorioso do lançamento do GPT-3.5.

Assim que foi lançado, Sora rapidamente se tornou o foco do mundo da tecnologia com suas três principais vantagens. A capacidade de gerar vídeos ultra longos de até 60 segundos e superar o gargalo de continuidade de 4 segundos dos modelos anteriores de geração de vídeo por IA impressionou tanto a indústria quanto o público. Além disso, Sora não apenas suporta múltiplos ângulos de câmera, mas também pode alcançar filmagens fluidas em uma única tomada, gerando imagens que exibem perfeitamente as relações de luz e sombra, oclusão física e efeitos de colisão nas cenas, tornando o conteúdo do vídeo mais vívido e realista.

Na época, Sora foi considerado pela OpenAI como um "simulador do mundo", não apenas um modelo de geração de vídeo, mas uma ferramenta inteligente capaz de compreender e simular as leis físicas do mundo real.

No início do lançamento, as pessoas ficaram maravilhadas com a inovação tecnológica e a conveniência trazidas por Sora. Muitos profissionais previram que Sora se tornaria uma revolução no campo da produção de vídeo, mudando completamente o modo tradicional de produção.

No entanto, até hoje, Sora ainda está se preparando para o lançamento oficial, incluindo testes adversariais, onde uma equipe vermelha composta por especialistas de vários campos realizou testes rigorosos para identificar e mitigar riscos potenciais como desinformação, conteúdo de ódio e preconceitos.

Ao mesmo tempo, a OpenAI também permitiu que artistas visuais, designers e cineastas tivessem acesso antecipado ao Sora para coletar feedback e melhorar o modelo, especialmente para atender às necessidades dos profissionais criativos. Para aumentar a transparência e a segurança, a OpenAI está desenvolvendo ferramentas para detectar conteúdo enganoso gerado por Sora e planeja incluir metadados C2PA no modelo. Além disso, a empresa está colaborando com formuladores de políticas, educadores e artistas em todo o mundo para entender suas preocupações e identificar casos de uso positivos para Sora. Essas atividades levaram ao atraso no lançamento de Sora.

Com o passar do tempo, a aplicação prática de Sora não avançou tão rapidamente quanto o esperado. Embora a OpenAI tenha alcançado um grande avanço tecnológico, ainda não conseguiu transformar essa tecnologia em um produto realmente utilizável e lançá-lo no mercado.

Para a maioria dos usuários, esse contraste certamente causa decepção e ansiedade. Por um lado, há o "ideal robusto" de que Sora pode rapidamente mudar o cenário da produção de vídeo, reduzindo as barreiras de criação e permitindo que mais pessoas produzam facilmente conteúdo de vídeo de alta qualidade; por outro lado, há a "realidade crua" do lento progresso na implementação de Sora.

O dilema de Sora não é apenas um atraso ou deficiência na implementação técnica, mas reflete mais profundamente os desafios comuns enfrentados pela tecnologia de IA no processo de comercialização. Da otimização de algoritmos ao processamento de dados, do cultivo de hábitos dos usuários ao aumento da aceitação do mercado, cada passo requer um polimento refinado e tempo de sedimentação. E nesta era de ritmo acelerado, a incompatibilidade entre o desejo dos usuários por satisfação imediata e a curva de maturidade da tecnologia de IA frequentemente leva a uma grande lacuna entre expectativas e realidade.

É fácil conquistar o poder, difícil é mantê-lo; GPT-5: da adoração tecnológica à crise de confiança

Além do Sora em reclusão para aperfeiçoamento, o lançamento repentino do GPT-4o mini fez com que os rumores fervilhassem novamente, com alguns usuários da internet brincando: "O GPT-3.5 está desempregado, será que o GPT-5 está longe? Altman: Sim, está!" Embora o lançamento do GPT-5 pareça um sonho distante, a maioria das pessoas ainda acredita firmemente na capacidade tecnológica da OpenAI.

No entanto, a competição e as mudanças no campo da IA também estão se intensificando rapidamente. Não apenas mais empresas e instituições de pesquisa estão se juntando ao desenvolvimento e aplicação da tecnologia de IA, mas também estão surgindo constantemente produtos de IA em áreas verticais, ganhando o favor dos usuários com posicionamentos mais precisos e serviços mais personalizados.

Em comparação, a atratividade da OpenAI na indústria parece ter diminuído, e sua posição de "domínio absoluto" está se tornando cada vez mais difícil de manter.

Assim como quando a OpenAI oficialmente interrompeu o fornecimento de serviços de API para a China e outras regiões no dia 9 deste mês, o que se pensava ser uma nova monopolização tecnológica acabou não causando grande alvoroço na China, contrariando as expectativas.

Diante do "corte de fornecimento" da OpenAI, desta vez as empresas chinesas reagiram de forma bastante positiva. Assim que a notícia foi divulgada, empresas de grandes modelos como Zhipu AI, Baidu, Alibaba e Tencent imediatamente lançaram "planos de mudança" para seus serviços de API, começando a absorver clientes que anteriormente usavam os serviços de API da OpenAI através de reduções de preços e simplificação de processos.

Quanto ao motivo pelo qual a OpenAI escolheu abandonar o mercado chinês, não precisamos buscar respostas, mas o desempenho dos fabricantes de grandes modelos domésticos é suficiente para provar que, ### considerando o ambiente de mercado e as condições de implantação de grandes modelos, os grandes modelos produzidos na China podem de fato se tornar a escolha preferida dos usuários.

No chamado "ano dos grandes modelos", falamos sobre a escala e a capacidade dos modelos, mas o rápido avanço tecnológico em apenas um ano já começou a fazer as empresas pensarem em como implementar e comercializar. A recente explosão concentrada de produtos como o Kuaishou Keling e o Sensetime Vimi é um microcosmo da implementação tecnológica. A inovação contínua tornou-se a pedra angular para a sobrevivência e o desenvolvimento das empresas.

A Casa dos Grandes Modelos acredita que, para a OpenAI, inovação contínua significa explorar constantemente novas áreas da inteligência artificial, empurrar os limites da tecnologia e criar produtos que realmente possam resolver problemas reais. O lançamento do GPT-5 não deve ser apenas uma simples atualização da geração anterior, mas um salto qualitativo para manter a posição de liderança da OpenAI no campo da inteligência artificial.

Posfácio: A multimodalidade pode se tornar uma nova oportunidade para ultrapassar a curva?

O sucesso explosivo das séries curtas de IA é sem dúvida um fenômeno notável, mas é apenas a ponta do iceberg do desenvolvimento do campo multimodal na China. Este fenômeno está longe de ser uma demonstração isolada de progresso tecnológico, mas sim uma manifestação abrangente da profunda integração entre inovação tecnológica e cultura local, captura precisa da demanda do mercado e desenvolvimento colaborativo de toda a cadeia industrial.

Se afastarmos nossa visão do fenômeno específico das séries curtas de IA, essa profunda integração entre inovação tecnológica, cultura local, demanda de mercado e ecossistema industrial é precisamente a vantagem-chave da China no campo da inteligência artificial multimodal. Seja no diagnóstico preciso na área de saúde, na transformação inteligente do setor educacional, ou no rápido desenvolvimento da manufatura inteligente e da Indústria 4.0, a inteligência artificial multimodal está criando novas