视频AI大战升级：巨头争夺核心技术，初创公司融资激增

这边，字节抢先上线AI视频生成产品即梦，将视频生成时长从常见的3-4秒拉长到12秒；沉寂许久的快手突然发布可灵大模型，惊艳的效果引发全网热议，排队人数一度接近100万。

那边，创企Luma AI"弃3D投视频"，发布Dream Machine高调入局；老玩家Runway也不甘示弱，甩出新一代Gen-3模型，将物理模拟能力推向新的高度。

融资战场上，战火同样炽烈。国内，爱诗科技、生数科技自3月起接连斩获亿级融资；海外，Pika在6月获得8000万美元融资，估值翻倍至5亿美元，而Runway则被曝正在筹备一笔高达4.5亿美元的融资。

Sora如同一颗重磅炸弹，震撼了AI视频生成界。如今经过5个月的激烈追赶，海内外AI视频生成产品究竟进展如何？它们能否与Sora一较高下？又将面临哪些挑战？通过对可用产品的横向体验，以及与从业者、创作者的探讨，智东西深入分析了这些问题。

在实测中，我能明显感受到视频生成的速度变快、"翻车"现象大幅减少，从简单的"PPT式"平移进化为有角度、动作变化的运动。整体体验下来，免费可用的产品中效果最佳的是即梦和可灵，无论是时长、稳定性还是物理模拟都实现领跑。

在融资方面，与Sora发布前相比，AI视频生成相关的融资密度和金额都大幅上涨，5个月内吸金超44亿，还带动视频制作流程"上下游"的其他产品如AI剪辑、AI灯光等获得资本青睐。此外还有多个新玩家入局，有的还没发布任何产品或技术就已经融到亿级资金。

一、技术之战：卷时长、卷高清、卷物理模拟

2月16日，OpenAI发布Sora，一夜颠覆了AI视频生成赛道格局。然而5个月过去，Sora仍是一款期货产品，什么时候能为普罗大众所用，看起来也遥遥无期。

这期间，国内外的大厂、创企争相发布新产品或模型升级，且大多数都已向全体用户开放，其中不乏效果惊艳的产品，这也让AI视频生成的格局再次发生改变。毕竟，Sora再好，用不上又有什么价值呢？

据智东西不完全统计，Sora发布以来国内外至少有8家公司发布新产品或模型，其中除生数科技的Vidu之外均公开可用。

2月21日，Stability AI正式上线了AI视频生成产品Stable Video网页版，且面向所有用户开放。虽然其底层模型Stable Video Diffusion于去年11月便已开源发布，但作为模型仍有一定的部署和使用门槛，打包成网页版发布后让更多用户可以简单便捷地上手使用。

4月27日，生数科技联合清华大学发布长时长、高一致性、高动态性视频大模型Vidu，据称可生成长达16秒、分辨率1080P的视频，并且能够模仿真实物理世界。

从放出的Demo来看，Vidu确实在清晰度、运动幅度、物理模拟等方面取得了很好的效果，不过遗憾的是，Vidu与Sora一样尚未开放。智东西向生数科技询问得知，产品将于近期开启内测。

5月9日，字节剪映旗下AI创作平台Dreamina更名"即梦"，并上线AI作图和AI视频生成功能，最长支持生成12秒的视频。

6月6日，快手发布AI视频大模型可灵，并上线快影App，用户只需填写问卷即可申请使用。可灵大模型主打对物理世界特性的高强度模拟，例如难倒众多AI的"吃面条"等问题，在其提供的视频案例中均有体现。

目前，可灵支持生成5秒、10秒固定时长的视频。据其官网介绍，模型最高能生成2分钟、帧率30fps、分辨率1080P的视频，后续将上线视频续写等功能。

6月13日，此前主要做AI生成3D的创企Luma AI宣布推出视频生成工具Dream Machine，支持文本、图像生成5秒长度的视频，同时提供视频延长功能，可基于已生成的视频一次延长5秒。

6月17日，Runway发布新一代模型Gen-3 Alpha版本，并于7月2日面向所有用户付费开放，订阅费最低为每月15美元。Gen-3目前支持基于文本生成5秒、10秒长度的视频，图生视频以及其他可控工具暂未开放。

7月6日，智象未来（HiDream）在WAIC上发布了智象大模型2.0，提供5、10、15秒三种视频生成时长，并增加文字嵌入生成、剧本多镜头视频生成、IP连贯一致性等能力。

7月17日，此前专注AI 3D重建的英国AI创企Haiper AI，宣布旗下AI视频生成产品Haiper升级至v1.5，时长延长到8秒，且提供视频延长、画质增强等功能。

从参数上看，这些AI视频生成产品首先在生成时长上实现了明显进步，基础生成时长从此前的2-4秒延长到5秒，并且有一半以上都支持超10秒的时长，还有部分产品提供了延长功能。目前免费可用的产品中，生成视频最长的为即梦的12秒。

在视觉效果方面，分辨率、帧率都有较大提升，支持720P及以上的产品更多了，帧率也向24/30fps靠拢，此前的产品生成视频分辨率大多在1024*576左右，帧率多为8-12fps。

Sora刚发布时，智东西曾对国内可用的8款AI视频生成工具进行了深度体验，当时差距还比较明显，"翻车"情况较多。（全网首个"中国版Sora"横评！15家企业对决，字节领跑）

那么经过几个月的迭代升级，已经交出新答卷的这些玩家表现如何？智东西对新发布或升级的AI视频生成产品进行了体验，为公平起见，统一只试用免费能力，且均选取第一次生成的视频。

需要注意的是，视频生成本身就有类似于"抽卡"的运气成分在内，且和提示词的撰写也有很大关系，因此少量的案例并不完全代表模型能力。

第一关我选择了静物场景，提示词为：郁金香沐浴在夕阳暖光中的特写。

Stable Video在这个提示上表现出很高的稳定性，同时画面清晰度、色彩的丰富程度都比较高，在运动上以镜头的运动为主。