Эскалация битвы за видео-ИИ: гиганты борются за ключевые технологии, стартапы резко увеличивают финансирование

Таинственное отсутствие Соры в течение 150 дней.

8 отечественных и зарубежных компаний в сфере ИИ последовательно выпускают новые продукты или модели, способные генерировать видео продолжительностью более 10 секунд, которые доступны публично. Некоторые, как утверждается, уже достигли генерации сверхдлинных видео продолжительностью до 2 минут. В сфере генерации видео с помощью ИИ разгорается жаркая битва 2.0.

С одной стороны, ByteDance первой запустила продукт для генерации видео с помощью ИИ под названием Jimo, увеличив продолжительность генерируемого видео с обычных 3-4 секунд до 12 секунд. Kuaishou, долгое время находившаяся в тени, внезапно выпустила крупную модель Keling, впечатляющие результаты которой вызвали бурное обсуждение в интернете, а число людей в очереди на использование одно время приближалось к 1 миллиону.

С другой стороны, стартап Luma AI "отказался от 3D в пользу видео", громко заявив о себе выпуском Dream Machine. Старожил Runway также не остался в стороне, выпустив новое поколение модели Gen-3, которая вывела возможности физического моделирования на новый уровень.

На поле финансирования битва не менее ожесточенная. В Китае Aisi Technology и Shengsheng Technology с марта последовательно получили финансирование на уровне миллиардов. За рубежом Pika в июне получила финансирование в размере 80 миллионов долларов, удвоив свою оценку до 500 миллионов долларов, а Runway, по слухам, готовит раунд финансирования на сумму до 450 миллионов долларов.

Sora стала настоящей бомбой, потрясшей мир генерации видео с помощью ИИ. Теперь, после 5 месяцев интенсивной гонки, как обстоят дела с продуктами для генерации видео с помощью ИИ в Китае и за рубежом? Могут ли они конкурировать с Sora? С какими проблемами они столкнутся? Zhidongxi провел глубокий анализ этих вопросов путем горизонтального тестирования доступных продуктов и обсуждений с профессионалами отрасли и создателями контента.

В ходе тестирования я явно ощутил, что скорость генерации видео увеличилась, а количество "сбоев" значительно уменьшилось. Произошла эволюция от простого "презентационного" перемещения к движению с изменением углов и действий. В целом, среди бесплатно доступных продуктов лучшие результаты показали Jimo и Keling, лидируя как по продолжительности, так и по стабильности и физическому моделированию.

Что касается финансирования, по сравнению с периодом до выпуска Sora, частота и объемы финансирования, связанного с генерацией видео с помощью ИИ, значительно выросли. За 5 месяцев было привлечено более 4,4 миллиарда, что также привлекло внимание капитала к другим продуктам "выше и ниже по течению" в процессе производства видео, таким как ИИ-монтаж и ИИ-освещение. Кроме того, на рынок вышло несколько новых игроков, некоторые из которых получили финансирование на уровне миллиардов, даже не выпустив ни одного продукта или технологии.

I. Технологическая битва: соревнование в продолжительности, качестве и физическом моделировании

16 февраля OpenAI выпустила Sora, за одну ночь перевернув ландшафт генерации видео с помощью ИИ. Однако спустя 5 месяцев Sora все еще остается продуктом будущего, и когда она станет доступна широкой публике, пока неясно.

За это время крупные компании и стартапы в Китае и за рубежом поспешили выпустить новые продукты или обновления моделей, большинство из которых уже открыты для всех пользователей. Среди них есть продукты с впечатляющими результатами, что снова изменило ландшафт генерации видео с помощью ИИ. В конце концов, какой толк от Sora, если ее нельзя использовать?

По неполным данным Zhidongxi, с момента выпуска Sora как минимум 8 компаний в Китае и за рубежом выпустили новые продукты или модели, из которых все, кроме Vidu от Shengsheng Technology, общедоступны.

21 февраля Stability AI официально запустила веб-версию продукта для генерации видео с помощью ИИ Stable Video, открытую для всех пользователей. Хотя базовая модель Stable Video Diffusion была открыто выпущена еще в ноябре прошлого года, она все еще имела определенный порог для развертывания и использования как модель. Выпуск в виде веб-версии позволил большему числу пользователей легко и удобно начать использование.

27 апреля Shengsheng Technology совместно с Университетом Цинхуа выпустила крупную модель видео Vidu с длительным временем, высокой согласованностью и динамичностью. Утверждается, что она может генерировать видео продолжительностью до 16 секунд с разрешением 1080P и способна имитировать реальный физический мир.

Судя по выпущенным демонстрациям, Vidu действительно достигла хороших результатов в четкости, амплитуде движения и физическом моделировании. Однако, к сожалению, Vidu, как и Sora, пока не открыта. Zhidongxi узнал у Shengsheng Technology, что продукт скоро начнет закрытое бета-тестирование.

9 мая платформа ИИ-творчества Dreamina от Jianying (ByteDance) была переименована в "Jimo" и запустила функции генерации изображений и видео с помощью ИИ, поддерживая генерацию видео продолжительностью до 12 секунд.

6 июня Kuaishou выпустила крупную модель ИИ-видео Keling и запустила ее в приложении Kuaiying. Пользователям нужно только заполнить анкету, чтобы подать заявку на использование. Крупная модель Keling специализируется на интенсивном моделировании характеристик физического мира, например, проблемы "поедания лапши", которая оказалась сложной для многих ИИ, что отражено в предоставленных видеопримерах.

В настоящее время Keling поддерживает генерацию видео фиксированной продолжительности 5 и 10 секунд. Согласно информации на официальном сайте, модель может генерировать видео продолжительностью до 2 минут с частотой кадров 30 fps и разрешением 1080P. В будущем планируется запуск таких функций, как продолжение видео.

13 июня стартап Luma AI, ранее в основном занимавшийся генерацией 3D с помощью ИИ, объявил о запуске инструмента для генерации видео Dream Machine, поддерживающего генерацию 5-секундных видео на основе текста и изображений, а также функцию продления видео, позволяющую продлить уже сгенерированное видео на 5 секунд за раз.

17 июня Runway выпустила альфа-версию модели нового поколения Gen-3, которая 2 июля стала доступна всем пользователям на платной основе с минимальной стоимостью подписки 15 долларов в месяц. Gen-3 в настоящее время поддерживает генерацию видео продолжительностью 5 и 10 секунд на основе текста, в то время как генерация видео из изображений и другие инструменты управления пока недоступны.

6 июля HiDream на WAIC представила крупную модель HiDream 2.0, предлагающую три варианта продолжительности генерации видео: 5, 10 и 15 секунд, а также добавляющую возможности генерации с встроенным текстом, генерации многокадрового видео по сценарию и согласованности IP.

17 июля британский ИИ-стартап Haiper AI, ранее специализировавшийся на 3D-реконструкции с помощью ИИ, объявил об обновлении своего продукта для генерации видео Haiper до версии 1.5, увеличив продолжительность до 8 секунд и предоставив такие функции, как продление видео и улучшение качества изображения.

Судя по параметрам, эти продукты для генерации видео с помощью ИИ прежде всего достигли заметного прогресса в продолжительности генерации, увеличив базовую продолжительность с прежних 2-4 секунд до 5 секунд, причем более половины из них поддерживают продолжительность более 10 секунд, а некоторые продукты предлагают функцию продления. В настоящее время среди бесплатно доступных продуктов самое длинное генерируемое видео - 12 секунд у Jimo.

Что касается визуальных эффектов, значительно улучшились разрешение и частота кадров. Больше продуктов поддерживают разрешение 720P и выше, а частота кадров приближается к 24/30 fps. Ранее большинство продуктов генерировали видео с разрешением около 1024*576 и частотой кадров 8-12 fps.

II. Битва продуктов: практическое тестирование 6 бесплатных "реальных" продуктов, лидируют "Douyin и Kuaishou"

Когда Sora только вышла, Zhidongxi провел глубокое тестирование 8 доступных в Китае инструментов для генерации видео с помощью ИИ. Тогда разница была довольно заметной, и "сбои" были частыми. (Первое в сети сравнение "китайской версии Sora"! Противостояние 15 компаний, ByteDance лидирует)

Как же выглядят эти игроки после нескольких месяцев итераций и обновлений? Zhidongxi протестировал новые или обновленные продукты для генерации видео с помощью ИИ. Для справедливости мы использовали только бесплатные возможности и выбрали первое сгенерированное видео для каждого продукта.

Следует отметить, что сама генерация видео имеет элемент "удачи", подобный "вытягиванию карты", и также сильно зависит от написания подсказок, поэтому небольшое количество примеров не полностью отражает возможности модели.

Для первого теста я выбрал сцену с неподвижным объектом, подсказка была: крупный план тюльпанов, купающихся в теплом свете заката.

Stable Video показал высокую стабильность с этой подсказкой, а также высокую четкость изображения и богатство цветов. Движение в основном осуществлялось за счет движения камеры.