8家国内外AI企业陆续推出新产品或模型,动辄生成10秒以上视频且公开可用,有的据称已实现长达2分钟的超长视频生成,AI视频生成赛道掀起热火朝天的2.0大战。
这边,字节抢先上线AI视频生成产品即梦,将视频生成时长从常见的3-4秒拉长到12秒;沉寂许久的快手突然发布可灵大模型,惊艳的效果引发全网热议,排队人数一度接近100万。
那边,创企Luma AI"弃3D投视频",发布Dream Machine高调入局;老玩家Runway也不甘示弱,甩出新一代Gen-3模型,将物理模拟能力推向新的高度。
融资战场上,战火同样炽烈。国内,爱诗科技、生数科技自3月起接连斩获亿级融资;海外,Pika在6月获得8000万美元融资,估值翻倍至5亿美元,而Runway则被曝正在筹备一笔高达4.5亿美元的融资。
Sora如同一颗重磅炸弹,震撼了AI视频生成界。如今经过5个月的激烈追赶,海内外AI视频生成产品究竟进展如何?它们能否与Sora一较高下?又将面临哪些挑战?通过对可用产品的横向体验,以及与从业者、创作者的探讨,智东西深入分析了这些问题。
在实测中,我能明显感受到视频生成的速度变快、"翻车"现象大幅减少,从简单的"PPT式"平移进化为有角度、动作变化的运动。整体体验下来,免费可用的产品中效果最佳的是即梦和可灵,无论是时长、稳定性还是物理模拟都实现领跑。
在融资方面,与Sora发布前相比,AI视频生成相关的融资密度和金额都大幅上涨,5个月内吸金超44亿,还带动视频制作流程"上下游"的其他产品如AI剪辑、AI灯光等获得资本青睐。此外还有多个新玩家入局,有的还没发布任何产品或技术就已经融到亿级资金。
一、技术之战:卷时长、卷高清、卷物理模拟
2月16日,OpenAI发布Sora,一夜颠覆了AI视频生成赛道格局。然而5个月过去,Sora仍是一款期货产品,什么时候能为普罗大众所用,看起来也遥遥无期。
这期间,国内外的大厂、创企争相发布新产品或模型升级,且大多数都已向全体用户开放,其中不乏效果惊艳的产品,这也让AI视频生成的格局再次发生改变。毕竟,Sora再好,用不上又有什么价值呢?
据智东西不完全统计,Sora发布以来国内外至少有8家公司发布新产品或模型,其中除生数科技的Vidu之外均公开可用。
2月21日,Stability AI正式上线了AI视频生成产品Stable Video网页版,且面向所有用户开放。虽然其底层模型Stable Video Diffusion于去年11月便已开源发布,但作为模型仍有一定的部署和使用门槛,打包成网页版发布后让更多用户可以简单便捷地上手使用。
4月27日,生数科技联合清华大学发布长时长、高一致性、高动态性视频大模型Vidu,据称可生成长达16秒、分辨率1080P的视频,并且能够模仿真实物理世界。
从放出的Demo来看,Vidu确实在清晰度、运动幅度、物理模拟等方面取得了很好的效果,不过遗憾的是,Vidu与Sora一样尚未开放。智东西向生数科技询问得知,产品将于近期开启内测。
5月9日,字节剪映旗下AI创作平台Dreamina更名"即梦",并上线AI作图和AI视频生成功能,最长支持生成12秒的视频。
6月6日,快手发布AI视频大模型可灵,并上线快影App,用户只需填写问卷即可申请使用。可灵大模型主打对物理世界特性的高强度模拟,例如难倒众多AI的"吃面条"等问题,在其提供的视频案例中均有体现。
目前,可灵支持生成5秒、10秒固定时长的视频。据其官网介绍,模型最高能生成2分钟、帧率30fps、分辨率1080P的视频,后续将上线视频续写等功能。
6月13日,此前主要做AI生成3D的创企Luma AI宣布推出视频生成工具Dream Machine,支持文本、图像生成5秒长度的视频,同时提供视频延长功能,可基于已生成的视频一次延长5秒。
6月17日,Runway发布新一代模型Gen-3 Alpha版本,并于7月2日面向所有用户付费开放,订阅费最低为每月15美元。Gen-3目前支持基于文本生成5秒、10秒长度的视频,图生视频以及其他可控工具暂未开放。
7月6日,智象未来(HiDream)在WAIC上发布了智象大模型2.0,提供5、10、15秒三种视频生成时长,并增加文字嵌入生成、剧本多镜头视频生成、IP连贯一致性等能力。
7月17日,此前专注AI 3D重建的英国AI创企Haiper AI,宣布旗下AI视频生成产品Haiper升级至v1.5,时长延长到8秒,且提供视频延长、画质增强等功能。
从参数上看,这些AI视频生成产品首先在生成时长上实现了明显进步,基础生成时长从此前的2-4秒延长到5秒,并且有一半以上都支持超10秒的时长,还有部分产品提供了延长功能。目前免费可用的产品中,生成视频最长的为即梦的12秒。
在视觉效果方面,分辨率、帧率都有较大提升,支持720P及以上的产品更多了,帧率也向24/30fps靠拢,此前的产品生成视频分辨率大多在1024*576左右,帧率多为8-12fps。
二、产品之战:上手实测6款免费"现货","抖快"领跑
Sora刚发布时,智东西曾对国内可用的8款AI视频生成工具进行了深度体验,当时差距还比较明显,"翻车"情况较多。(全网首个"中国版Sora"横评!15家企业对决,字节领跑)
那么经过几个月的迭代升级,已经交出新答卷的这些玩家表现如何?智东西对新发布或升级的AI视频生成产品进行了体验,为公平起见,统一只试用免费能力,且均选取第一次生成的视频。
需要注意的是,视频生成本身就有类似于"抽卡"的运气成分在内,且和提示词的撰写也有很大关系,因此少量的案例并不完全代表模型能力。
第一关我选择了静物场景,提示词为:郁金香沐浴在夕阳暖光中的特写。
Stable Video在这个提示上表现出很高的稳定性,同时画面清晰度、色彩的丰富程度都比较高,在运动上以镜头的运动为主。