Битва гигантов ИИ: сможет ли GPT-5 превзойти Sora и изменить расстановку сил в отрасли?

Популярность ИИ-коротких фильмов раскрывает тенденции развития мультимодальных больших моделей. Это явление не только отражает потенциал применения технологий искусственного интеллекта в творческой сфере, но и демонстрирует способность мультимодальных моделей интегрировать различные формы информации, такие как текст, изображения и видео. По мере развития технологий мультимодальные большие модели меняют способы создания и потребления контента, принося новые возможности и вызовы для индустрии цифровых развлечений.

Председатель совета директоров и генеральный директор Xiaomi Лей Цзюнь недавно заявил: "Короткие драмы, похоже, открыли новый мир, они более динамичные, захватывающие и интересные, чем развлекательная литература".

В то время как короткие драмы стали популярными, некоторые создатели также обнаружили ценность ИИ в этом процессе. ### Первая в Китае оригинальная фэнтезийная мини-драма, созданная с помощью AIGC, "Зеркало гор и морей", с момента ее выхода 13 июля быстро стала популярной на крупных видеоплатформах, набрав более 10 миллионов просмотров на Kuaishou. Благодаря умелому использованию технологий ИИ, мифологические персонажи и странные существа, описанные в "Книге гор и морей", были преобразованы из текста в яркие образы на экране, успешно разрушив стереотипы людей о эффектах производства видео с помощью ИИ благодаря своей реалистичности и плавности.

Кроме того, ### "Саньсиндуй: Откровение будущего", созданный центром производства AIGMS компании Bona Film Group, также достиг значительных результатов и отклика после выхода. Цзян Дэфу, генеральный директор Bona Film Group, заявил, что Bona использовала промышленный процесс кинопроизводства для создания этой короткой драмы с помощью ИИ с целью использования своего зрелого кинематографического опыта для повышения технического уровня коротких драм с ИИ и рассказа китайских историй через трек коротких драм с ИИ.

Можно сказать, что "прорыв" коротких драм с ИИ воспользовался "благоприятным временем, местом и людьми", от производственных инструментов до платформ и аудитории, создавая плодородную почву для развития с полной экосистемной цепочкой.

Успех этих работ - это не только технологический прорыв, но и микрокосм применения мультимодальных больших моделей в художественном творчестве. Они демонстрируют не только способности ИИ в обработке визуальной и аудиальной информации, но и глубокое понимание и инновационное выражение культурных элементов через глубокое обучение и технологии обработки естественного языка.

Снижение ожиданий, чем OpenAI может спасти ситуацию

На фоне этой процветающей картины невольно вспоминается бывший "концептуальный бог" - Sora.

Как новая генеративная видеомодель, выпущенная OpenAI, она действительно вызвала беспрецедентный ажиотаж при своем выпуске. Когда OpenAI официально сняла завесу тайны с Sora в феврале, глобальный интернет и социальные медиа мгновенно были потрясены ее мощными функциями, словно повторяя славный момент выпуска GPT-3.5.

Сразу после выпуска Sora быстро стала центром внимания в технологическом мире благодаря своим трем ключевым преимуществам. Способность генерировать сверхдлинные видео продолжительностью до 60 секунд и преодоление 4-секундного барьера связности предыдущих моделей генерации видео с ИИ поразили отрасль и общественность. Во-вторых, Sora не только поддерживает многоракурсную съемку, но и может достичь плавной съемки одним кадром, генерируя изображения, которые идеально отображают отношения света и тени, физическое заслонение и эффекты столкновения в сцене, делая видеоконтент более живым и реалистичным.

В то время Sora рассматривалась OpenAI как "симулятор мира", не просто как модель генерации видео, но как интеллектуальный инструмент, способный понимать и моделировать физические законы реального мира.

На ранних этапах выпуска люди восхищались технологическими инновациями и удобством, которые принесла Sora. Многие профессионалы предсказывали, что Sora станет революцией в области производства видео, полностью изменив традиционные способы производства видео.

Однако на сегодняшний день Sora все еще готовится к официальному запуску, включая тестирование на устойчивость, проведенное строгое тестирование красной командой, состоящей из экспертов в различных областях, для выявления и снижения потенциальных рисков, таких как дезинформация, ненавистнический контент и предвзятость.

В то же время OpenAI также позволила визуальным художникам, дизайнерам и кинематографистам получить ранний доступ к Sora для сбора отзывов и улучшения модели, особенно для удовлетворения потребностей творческих профессионалов. Для повышения прозрачности и безопасности OpenAI разрабатывает инструменты для обнаружения вводящего в заблуждение контента, сгенерированного Sora, и планирует включить метаданные C2PA в модель. Кроме того, компания сотрудничает с политиками, педагогами и художниками по всему миру, чтобы понять их опасения и определить положительные случаи использования Sora. Эти действия привели к задержке выпуска Sora.

С течением времени практическое применение Sora не продвинулось так быстро, как ожидалось. Несмотря на огромный технологический прорыв OpenAI, компания все еще не смогла превратить эту технологию в реальный, пригодный для использования продукт и вывести его на рынок.

Для широкого круга пользователей этот контраст, несомненно, вызывает разочарование и тревогу. С одной стороны, есть "полное идеальное представление" о том, что Sora может быстро изменить ландшафт производства видео, снизить барьеры для творчества и позволить большему количеству людей легко создавать высококачественный видеоконтент; с другой стороны, есть "суровая реальность" медленного прогресса в реализации Sora.

Дилемма Sora отражает не только задержки или недостатки в технической реализации, но и более глубокие общие проблемы, с которыми сталкивается текущая технология ИИ в процессе коммерциализации. От оптимизации алгоритмов до обработки данных, от формирования пользовательских привычек до повышения рыночного принятия, каждый шаг требует тщательной доработки и времени для осаждения. А в этой быстро меняющейся эпохе несоответствие между желанием пользователей немедленного удовлетворения и кривой зрелости технологии ИИ часто приводит к огромному разрыву между ожиданиями и реальностью.

Легко завоевать царство, трудно его удержать, GPT-5 от технологического поклонения до кризиса доверия

Помимо Sora, находящейся в закрытой разработке, внезапный выпуск GPT-4o mini вызвал новую волну обсуждений, некоторые пользователи в шутку сказали: "GPT-3.5 уволен, GPT-5 не за горами? Альтман: Да!" Несмотря на то, что выпуск GPT-5 кажется иллюзорным, большинство людей по-прежнему верят в технологические возможности OpenAI.

Однако конкуренция и изменения в области ИИ также становятся все более интенсивными. Не только все больше компаний и исследовательских институтов присоединяются к разработке и применению технологий ИИ, но и постоянно появляются многочисленные продукты ИИ в вертикальных областях, завоевывая пользователей более точным позиционированием и более персонализированными услугами.

По сравнению с этим, привлекательность OpenAI в отрасли, кажется, несколько уменьшилась, и ее ситуация "доминирования на рынке" становится все труднее поддерживать.

Как и после того, как OpenAI официально прекратила предоставление услуг API для Китая и других регионов 9 числа этого месяца, ожидалось, что это будет новая технологическая монополия, но, вопреки ожиданиям, это не вызвало большого шума в Китае.

Столкнувшись с "прекращением поставок" от OpenAI, на этот раз реакция китайских компаний была довольно активной. Сразу после появления новости крупные компании, занимающиеся большими моделями, такие как Zhipu AI, Baidu, Alibaba, Tencent и другие, быстро запустили "планы переезда" для услуг API, начав привлекать клиентов, ранее использовавших услуги API OpenAI, путем снижения цен и упрощения процессов.

Что касается причин отказа от китайского рынка, нам не нужно искать ответы, но поведение отечественных производителей больших моделей достаточно доказывает, что ### с точки зрения рыночной среды и условий развертывания больших моделей, отечественные большие модели вполне могут стать приоритетным выбором для пользователей.

В так называемый "год больших моделей" мы говорили о масштабе моделей и их возможностях, но технологический прогресс за короткий год уже заставил компании задуматься о вопросах внедрения и коммерциализации, недавний взрыв продуктов, таких как Kuaishou Keling и SenseTime Vimi, является микрокосмом технологического внедрения. Постоянные инновации стали краеугольным камнем выживания и развития предприятий.

По мнению Big Model Home, для OpenAI постоянные инновации означают непрерывное исследование новых областей искусственного интеллекта, расширение технологических границ и создание продуктов, которые действительно могут решать реальные проблемы. Выпуск GPT-5 должен быть не просто простым обновлением предыдущего поколения продуктов, а качественным скачком, чтобы поддерживать лидирующую позицию OpenAI в области искусственного интеллекта.

Послесловие: Может ли мультимодальность стать новой возможностью для обгона на повороте

Взрыв популярности коротких драм с ИИ, несомненно, является заметным явлением, но это лишь верхушка айсберга развития мультимодальной области в Китае. Это явление далеко не изолированная демонстрация технологического прогресса, а комплексное проявление глубокой интеграции технологических инноваций с местной культурой, точного улавливания рыночного спроса и согласованного развития всей производственной цепочки.

Если мы отдалим взгляд от конкретного явления коротких драм с ИИ, эта глубокая интеграция технологических инноваций с местной культурой, рыночным спросом и промышленной экосистемой является ключевым преимуществом Китая в области мультимодального искусственного интеллекта. Будь то точная диагностика в области здравоохранения, интеллектуальная трансформация в образовании или быстрое развитие интеллектуального производства и Индустрии 4.0, мультимодальный искусственный интеллект создает новые