Meta发布SAM 2.0:一键追踪移动目标,完全开源

游戏试玩版已经发布,玩家可以体验部分游戏内容。

Meta最近在SIGGRAPH上发布了SAM2,这是他们"分割任何物体"AI模型的第二代。与前一版本相比,SAM2将其功能从图像分割扩展到视频分割。它可以实时处理任何长度的视频,并轻松分割和跟踪视频中之前未见过的物体。

关键是,该模型的代码、权重和数据集都已开源。与Llama系列一样,它遵循Apache 2.0许可,并在BSD-3许可下共享评估代码。

Meta表示,开源的数据集包括51,000个真实世界的视频和600,000个时空掩码(masklets),远超过以往类似数据集的规模。同时还提供了在线演示供大家体验。

SAM2在SAM的基础上增加了一个记忆模块。其主要升级包括:

  • 实时分割任何长度的视频
  • 零样本泛化
  • 改进的分割和跟踪精度
  • 解决遮挡问题

交互式分割过程主要包括两个步骤:选择和细化。在第一帧中,用户通过点击选择目标对象。然后SAM2自动将分割传播到后续帧,形成时空掩码。如果SAM2在某些帧中丢失目标对象,用户可以通过在新帧中提供额外提示来纠正。

SAM2的核心思想是将图像视为单帧视频,允许直接从SAM扩展到视频领域,同时支持图像和视频输入。处理视频的唯一区别是模型需要依靠记忆来回忆已处理的信息,以便在当前时间步骤中准确分割对象。

为了解决视频分割的挑战,Meta专注于三个主要领域:

  1. 设计一个可提示的视觉分割任务
  2. 基于SAM开发新模型
  3. 构建SA-V数据集

团队设计了一个将图像分割泛化到视频的视觉分割任务。SAM2被训练为接受视频任何帧中的提示来定义要预测的时空掩码。它根据输入提示在当前帧上进行即时掩码预测,并执行时间传播以生成目标对象在所有帧中的掩码。

通过引入流式记忆,该模型可以实时处理视频,更准确地分割和跟踪目标对象。记忆组件包括记忆编码器、记忆库和记忆注意力模块。这种设计使模型能够处理任何长度的视频,这对SA-V数据集中的注释收集很重要,并可能对机器人等领域产生影响。

如果分割对象不明确,SAM2还会输出多个有效掩码。此外,为了处理视频中的遮挡,SAM2包括一个额外的"遮挡头"来预测对象是否出现在当前帧中。

SA-V数据集包含的视频数量是现有最大类似数据集的4.5倍,注释数量是53倍。为了收集如此大量的数据,研究团队构建了一个数据引擎,可以迭代改进数据集和模型。

与最先进的半监督方法相比,SAM2在各种指标上表现良好。然而,研究团队承认存在一些局限性,例如在拥挤场景或摄像机角度变化显著时可能会丢失对象跟踪。他们设计了实时交互模式来支持这些情况下的手动纠正。

该模型不仅开源供免费使用,还托管在Amazon SageMaker等平台上。