Metaが SAM 2.0 を発表:ワンクリックで動く物体を追跡、完全オープンソース化

ゲームの体験版が公開され、プレイヤーは一部のコンテンツを体験できるようになりました。

Metaは最近、SIGGRAPHで「segment anything」AIモデルの第2世代であるSAM2を発表しました。前バージョンと比較して、SAM2は画像セグメンテーションから動画セグメンテーションへとその能力を拡張しています。任意の長さの動画をリアルタイムで処理し、動画内で以前に見たことのないオブジェクトを簡単にセグメント化して追跡できます。

重要なのは、モデルのコード、重み、データセットがすべてオープンソース化されたことです。Llamaシリーズと同様に、Apache 2.0ライセンスに従い、評価コードはBSD-3ライセンスで共有されています。

Metaによると、オープンソース化されたデータセットには51,000の実世界の動画と600,000の時空間マスク(マスクレット)が含まれており、これは以前の同様のデータセットの規模を大きく上回っています。また、誰でも体験できるオンラインデモも公開されています。

SAM2はSAMをベースにメモリモジュールを追加しています。主な改良点は以下の通りです:

  • 任意の長さの動画のリアルタイムセグメンテーション
  • ゼロショット汎化
  • セグメンテーションと追跡の精度向上
  • オクルージョンの問題解決

インタラクティブなセグメンテーションプロセスは主に選択と精緻化の2つのステップで構成されています。最初のフレームで、ユーザーがクリックして対象オブジェクトを選択します。SAM2は自動的にセグメンテーションを後続のフレームに伝播させ、時空間マスクを形成します。特定のフレームでSAM2が対象オブジェクトを見失った場合、ユーザーは新しいフレームで追加のプロンプトを提供して修正できます。

SAM2の核心的なアイデアは、画像を単一フレームの動画として扱うことで、SAMから動画領域への直接的な拡張を可能にし、画像と動画の両方の入力をサポートすることです。動画処理の唯一の違いは、モデルが現在の時間ステップで正確なオブジェクトセグメンテーションを行うために、処理済みの情報を思い出すためにメモリに依存する必要があることです。

動画セグメンテーションの課題に対処するため、Metaは3つの主要な領域に焦点を当てました:

  1. プロンプト可能な視覚セグメンテーションタスクの設計
  2. SAMをベースにした新しいモデルの開発
  3. SA-Vデータセットの構築

チームは画像セグメンテーションを動画に一般化する視覚セグメンテーションタスクを設計しました。SAM2は動画の任意のフレームでプロンプトを受け入れ、予測すべき時空間マスクを定義するように訓練されています。入力プロンプトに基づいて現在のフレームで即座にマスク予測を行い、時間的伝播を実行して全フレームにわたる対象オブジェクトのマスクを生成します。

ストリーミングメモリを導入することで、モデルはリアルタイムで動画を処理し、より正確に対象オブジェクトをセグメント化して追跡できます。メモリコンポーネントはメモリエンコーダー、メモリバンク、メモリアテンションモジュールで構成されています。この設計により、モデルは任意の長さの動画を処理できるようになり、これはSA-Vデータセットのアノテーション収集に重要であり、ロボティクスなどの分野に潜在的な影響を与える可能性があります。

SAM2は、セグメント化されたオブジェクトが曖昧な場合、複数の有効なマスクを出力します。さらに、動画内のオクルージョンに対処するため、SAM2には現在のフレームにオブジェクトが出現しているかどうかを予測する追加の「オクルージョンヘッド」が含まれています。

SA-Vデータセットには、既存の最大の同様のデータセットと比較して4.5倍多くの動画と53倍多くのアノテーションが含まれています。このような大量のデータを収集するために、研究チームはデータセットとモデルの両方を反復的に改善するデータエンジンを構築しました。

最先端の半教師あり手法と比較して、SAM2はさまざまな指標で良好な性能を示しています。ただし、研究チームは、混雑したシーンや大幅なカメラアングルの変化でオブジェクトの追跡を失う可能性があるなど、いくつかの制限を認めています。このような場合に手動修正をサポートするため、リアルタイムのインタラクティブモードを設計しました。

このモデルは無料で使用できるようオープンソース化されているだけでなく、Amazon SageMakerなどのプラットフォームでもホストされています。