8家國內外AI企業陸續推出新產品或模型,動輒生成### 10秒以上影片且公開可用,有的據稱已實現長達### 2分鐘的超長影片生成,AI影片生成賽道掀起熱火朝天的2.0大戰。
這邊,### 字節搶先上線AI影片生成產品即夢,將影片生成時長從常見的3-4秒拉長到12秒;沉寂許久的### 快手突然發布可靈大模型,驚艷的效果引發全網熱議,排隊人數一度接近100萬。
那邊,創企### Luma AI"棄3D投影片",發布Dream Machine高調入局;老玩家### Runway也不甘示弱,甩出新一代Gen-3模型,將物理模擬能力推向新的高度。
融資戰場上,戰火同樣熾烈。國內,### 愛詩科技、生數科技自3月起接連斬獲億級融資;海外,### Pika在6月獲得8000萬美元融資,估值翻倍至5億美元,而### Runway則被爆正在籌備一筆高達4.5億美元的融資。
Sora如同一顆重磅炸彈,震撼了AI影片生成界。如今經過5個月的激烈追趕,海內外AI影片生成產品究竟進展如何?它們能否與Sora一較高下?又將面臨哪些挑戰?通過對可用產品的橫向體驗,以及與從業者、創作者的探討,智東西深入分析了這些問題。
在實測中,我能明顯感受到影片生成的速度變快、"翻車"現象大幅減少,從簡單的"PPT式"平移進化為有角度、動作變化的運動。整體體驗下來,免費可用的產品中效果最佳的是即夢和可靈,無論是時長、穩定性還是物理模擬都實現領跑。
在融資方面,與Sora發布前相比,AI影片生成相關的融資密度和金額都大幅上漲,5個月內吸金超44億,還帶動影片製作流程"上下游"的其他產品如AI剪輯、AI燈光等獲得資本青睞。此外還有多個新玩家入局,有的還沒發布任何產品或技術就已經融到億級資金。
一、技術之戰:捲時長、捲高清、捲物理模擬
2月16日,OpenAI發布Sora,一夜顛覆了AI影片生成賽道格局。然而5個月過去,Sora仍是一款期貨產品,什麼時候能為普羅大眾所用,看起來也遙遙無期。
這期間,國內外的大廠、創企爭相發布新產品或模型升級,且大多數都已向全體用戶開放,其中不乏效果驚艷的產品,這也讓AI影片生成的格局再次發生改變。畢竟,Sora再好,用不上又有什麼價值呢?
據智東西不完全統計,Sora發布以來國內外至少有### 8家公司發布新產品或模型,其中除生數科技的Vidu之外均### 公開可用。
2月21日,### Stability AI正式上線了AI影片生成產品Stable Video網頁版,且面向所有用戶開放。雖然其底層模型Stable Video Diffusion於去年11月便已開源發布,但作為模型仍有一定的部署和使用門檻,打包成網頁版發布後讓更多用戶可以簡單便捷地上手使用。
4月27日,### 生數科技聯合清華大學發布長時長、高一致性、高動態性影片大模型Vidu,據稱可生成長達16秒、解析度1080P的影片,並且能夠模仿真實物理世界。
從放出的Demo來看,Vidu確實在清晰度、運動幅度、物理模擬等方面取得了很好的效果,不過遺憾的是,Vidu與Sora一樣尚未開放。智東西向生數科技詢問得知,產品將於近期開啟內測。
5月9日,### 字節剪映旗下AI創作平台Dreamina更名"即夢",並上線AI作圖和AI影片生成功能,最長支持生成12秒的影片。
6月6日,### 快手發布AI影片大模型可靈,並上線快影App,用戶只需填寫問卷即可申請使用。可靈大模型主打對物理世界特性的高強度模擬,例如難倒眾多AI的"吃麵條"等問題,在其提供的影片案例中均有體現。
目前,可靈支持生成5秒、10秒固定時長的影片。據其官網介紹,模型最高能生成2分鐘、幀率30fps、解析度1080P的影片,後續將上線影片續寫等功能。
6月13日,此前主要做AI生成3D的創企### Luma AI宣布推出影片生成工具Dream Machine,支持文本、圖像生成5秒長度的影片,同時提供影片延長功能,可基於已生成的影片一次延長5秒。
6月17日,### Runway發布新一代模型Gen-3 Alpha版本,並於7月2日面向所有用戶付費開放,訂閱費最低為每月15美元。Gen-3目前支持基於文本生成5秒、10秒長度的影片,圖生影片以及其他可控工具暫未開放。
7月6日,### 智象未來(HiDream)在WAIC上發布了智象大模型2.0,提供5、10、15秒三種影片生成時長,並增加文字嵌入生成、劇本多鏡頭影片生成、IP連貫一致性等能力。
7月17日,此前專注AI 3D重建的英國AI創企### Haiper AI,宣布旗下AI影片生成產品Haiper升級至v1.5,時長延長到8秒,且提供影片延長、畫質增強等功能。
從參數上看,這些AI影片生成產品首先在生成時長上實現了明顯進步,基礎生成時長從此前的2-4秒延長到5秒,並且有一半以上都支持超10秒的時長,還有部分產品提供了延長功能。目前免費可用的產品中,生成影片最長的為即夢的12秒。
在視覺效果方面,解析度、幀率都有較大提升,支持720P及以上的產品更多了,幀率也向24/30fps靠攏,此前的產品生成影片解析度大多在1024*576左右,幀率多為8-12fps。
二、產品之戰:上手實測6款免費"現貨","抖快"領跑
Sora剛發布時,智東西曾對國內可用的8款AI影片生成工具進行了深度體驗,當時差距還比較明顯,"翻車"情況較多。(全網首個"中國版Sora"橫評!15家企業對決,字節領跑)
那麼經過幾個月的迭代升級,已經交出新答卷的這些玩家表現如何?智東西對新發布或升級的AI影片生成產品進行了體驗,為公平起見,統一只試用免費能力,且均選取第一次生成的影片。
需要注意的是,影片生成本身就有類似於"抽卡"的運氣成分在內,且和提示詞的撰寫也有很大關係,因此少量的案例並不完全代表模型能力。
第一關我選擇了### 靜物場景,提示詞為:### 鬱金香沐浴在夕陽暖光中的特寫。
Stable Video在這個提示上表現出很高的穩定性,同時畫面清晰度、色彩的豐富程度都比較高,在運動上以鏡頭的運動為主。