ビデオAI戦争が激化:大手企業が核心技術を争奪、スタートアップの資金調達が急増

ソラの150日間の謎の不在。

8つの国内外AI企業が次々と新製品やモデルを発表し、10秒以上の動画を生成でき公開利用可能なものが多く、中には2分間の超長尺動画生成を実現したと主張するものもあり、AI動画生成分野で2.0の大戦が熱く繰り広げられている。

一方では、ByteDanceが先んじてAI動画生成製品「即夢」をリリースし、動画生成時間を一般的な3-4秒から12秒に延長した。長らく沈黙していたKuaishouが突如「可霊」大規模モデルを発表し、その驚くべき効果がネット上で話題となり、待機者数は一時10万人近くに達した。

他方では、スタートアップのLuma AIが「3Dから動画へ」と方向転換し、Dream Machineを発表して市場参入。老舗のRunwayも負けじと新世代Gen-3モデルを投入し、物理シミュレーション能力を新たな高みへと押し上げた。

資金調達の戦場も激しさを増している。国内では、愛詩科技と生数科技が3月以降連続して10億単位の資金調達に成功。海外では、Pikaが6月に8000万ドルを調達し、企業価値が5億ドルに倍増。Runwayは4.5億ドルの大型資金調達を準備中と報じられている。

Soraは爆弾のようにAI動画生成界を震撼させた。5ヶ月の激しい追撃を経て、国内外のAI動画生成製品はどこまで進化したのか?Soraとどこまで肩を並べられるのか?そしてどのような課題に直面するのか?利用可能な製品の横断的な体験と、業界関係者やクリエイターとの議論を通じて、これらの問題を深く分析した。

実際に試してみると、動画生成の速度が明らかに速くなり、「失敗」現象が大幅に減少し、単純な「PPT式」の平行移動から角度や動きの変化を伴う動きへと進化していることを感じた。全体的な体験では、無料で利用可能な製品の中で最も効果が高かったのは即夢と可霊で、長さ、安定性、物理シミュレーションのいずれにおいてもリードを実現している。

資金調達面では、Sora発表前と比較して、AI動画生成関連の資金調達の頻度と金額が大幅に増加し、5ヶ月で44億以上を集めた。さらに、動画制作プロセスの「上流下流」にある他の製品、例えばAI編集やAI照明なども資本の注目を集めている。また、複数の新規参入者が市場に参入し、中には製品や技術を発表する前に10億単位の資金を調達したケースもある。

一、技術戦:長さ、高画質、物理シミュレーションを競う

2月16日、OpenAIがSoraを発表し、一夜にしてAI動画生成分野の構図を覆した。しかし5ヶ月が経過した今も、Soraは依然として将来の製品であり、一般の人々がいつ使えるようになるかは見通しが立っていない。

この間、国内外の大手企業やスタートアップが競って新製品やモデルのアップグレードを発表し、その多くがすべてのユーザーに開放されている。中には驚くべき効果を示す製品もあり、これによってAI動画生成の構図が再び変化している。結局のところ、Soraがどんなに優れていても、使えなければ何の価値があるだろうか?

智東西の不完全な統計によると、Sora発表以来、国内外で少なくとも8社が新製品やモデルを発表しており、そのうち生数科技のViduを除いてすべて公開利用可能となっている。

2月21日、Stability AIがAI動画生成製品Stable Videoのウェブ版を正式にリリースし、すべてのユーザーに開放した。基盤となるモデルStable Video Diffusionは昨年11月にすでにオープンソース化されていたが、モデルとしてはまだ導入と使用にある程度の敷居があった。ウェブ版としてパッケージ化して発表したことで、より多くのユーザーが簡単かつ便利に使用できるようになった。

4月27日、生数科技が清華大学と共同で長時間、高一貫性、高動的性を特徴とする動画大規模モデルViduを発表した。16秒の長さ、1080Pの解像度の動画を生成でき、実際の物理世界を模倣できるとされている。

公開されたデモを見ると、Viduは確かに鮮明さ、動きの幅、物理シミュレーションなどの面で優れた効果を達成している。しかし残念ながら、ViduはSoraと同様にまだ公開されていない。智東西が生数科技に問い合わせたところ、製品は近日中にベータテストを開始する予定だという。

5月9日、ByteDanceのCapcutブランドのAI創作プラットフォームDreaminaが「即夢」に改名し、AI画像生成とAI動画生成機能をリリースした。最長12秒の動画生成をサポートしている。

6月6日、KuaishouがAI動画大規模モデル「可霊」を発表し、Kuaiyingアプリでリリースした。ユーザーはアンケートに回答するだけで使用申請ができる。可霊大規模モデルは物理世界の特性の高度なシミュレーションを特徴としており、例えば多くのAIが苦手とする「麺を食べる」などの問題も、提供された動画事例で実現されている。

現在、可霊は5秒と10秒の固定長の動画生成をサポートしている。公式ウェブサイトによると、モデルは最長2分、フレームレート30fps、解像度1080Pの動画を生成でき、今後は動画の続きを書く機能なども追加される予定だ。

6月13日、これまで主にAI 3D生成に注力していたスタートアップのLuma AIが、動画生成ツールDream Machineの発表を宣言した。テキストや画像から5秒の長さの動画を生成でき、同時に動画延長機能も提供し、生成済みの動画を一度に5秒延長できる。

6月17日、Runwayが新世代モデルGen-3 Alphaバージョンをリリースし、7月2日にすべてのユーザーに有料で開放した。サブスクリプション料金は最低月額15ドルからとなっている。Gen-3は現在、テキストベースで5秒、10秒の長さの動画を生成できるが、画像から動画を生成する機能やその他の制御ツールはまだ開放されていない。

7月6日、HiDreamがWAICで智象大規模モデル2.0を発表した。5秒、10秒、15秒の3種類の動画生成時間を提供し、テキスト埋め込み生成、脚本のマルチショット動画生成、IPの一貫性などの機能を追加した。

7月17日、これまでAI 3D再構築に特化していた英国のAIスタートアップHaiper AIが、AI動画生成製品Haiperをv1.5にアップグレードしたと発表した。生成時間を8秒に延長し、動画延長や画質向上などの機能も提供している。

パラメータから見ると、これらのAI動画生成製品はまず生成時間で明らかな進歩を遂げており、基本的な生成時間が従来の2-4秒から5秒に延長され、半数以上が10秒を超える長さをサポートしている。一部の製品は延長機能も提供している。現在、無料で利用可能な製品の中で最長の動画生成時間は即夢の12秒となっている。

視覚効果の面では、解像度とフレームレートが大幅に向上し、720P以上をサポートする製品が増え、フレームレートも24/30fpsに近づいている。以前の製品では生成される動画の解像度は多くが1024*576前後で、フレームレートは8-12fpsが主流だった。

二、製品戦:6つの無料「現物」製品を実際に試用、「抖快」がリード

Soraが発表されたばかりの頃、智東西は国内で利用可能な8つのAI動画生成ツールを深く体験し、当時はまだ差が明らかで、「失敗」のケースが多かった。(全ネット初の「中国版Sora」横評!15社の対決、ByteDanceがリード

では、数ヶ月の改良を経て、新たな答案を提出したこれらのプレイヤーはどのようなパフォーマンスを見せているのか?智東西は新しくリリースされたまたはアップグレードされたAI動画生成製品を体験した。公平を期すため、統一して無料の機能のみを試用し、すべて最初に生成された動画を選択した。

注意すべきは、動画生成自体に「ガチャ」のような運の要素があり、プロンプトの書き方とも大きく関係しているため、少数のケースだけでモデルの能力を完全に代表するものではないということだ。

最初のテストでは静物シーンを選び、プロンプトは「夕日の暖かい光に包まれたチューリップのクローズアップ」とした。

Stable Videoはこのプロンプトに対して非常に高い安定性を示し、同時に画像の鮮明度や色彩の豊かさも高く、動きは主にカメラの動きが中心となっている。