Meta开源"分割一切"2.0:视频分割新突破

突破性的「全能分割」模型

Meta再次开源了一个突破性的模型 - Segment Anything Model 2(SAM 2)。在原始SAM成功的基础上,SAM 2通过实现图像和视频的实时分割,将分割能力提升到了新的水平。

SAM 2的主要特点:

  • 首个统一的图像和视频实时对象分割模型
  • 与现有方法相比,准确性和性能得到提升
  • 出色的零样本泛化能力,可以分割任何视频中的任何对象
  • 交互时间减少到之前模型的三分之一

SAM 2可以准确分割视频中各种对象,包括:

  • 移动物体,如足球和扑克牌
  • 可变形物体,如正在揉捏的面团
  • 游动的彩色鱼
  • 微观细胞

Meta还同时发布了SA-V数据集:

  • 包含约51,000个真实世界视频
  • 超过600,000个时空掩码(masklets)
  • 比现有视频分割数据集大4.5倍
  • 标注数量是现有数据集的53倍

这个数据集将大大加速视觉数据标注,并有助于构建更好的计算机视觉系统。

SAM 2的潜在应用包括:

  • 与生成式视频模型结合,创造创意视频效果
  • 在濒危动物的无人机镜头中跟踪物体
  • 在医疗程序中定位腹腔镜摄像头反馈的区域
  • 实时视频编辑和直播流效果
  • 为计算机视觉系统(如自动驾驶汽车)的训练数据提供标注工具

SAM 2的开源延续了Meta通过开放合作推进AI发展的承诺。该模型和数据集在宽松许可下提供,允许学术和商业使用。

通过发布SAM 2,Meta旨在赋能AI社区,以构建创新应用并在计算机视觉领域做出新的发现。SAM 2统一的图像和视频分割能力为从内容创作到科学研究的各个行业开启了令人兴奋的可能性。

GitHub仓库