Metaは再び画期的なモデルをオープンソース化しました - Segment Anything Model 2 (SAM 2)です。元のSAMの成功を基に、SAM 2はセグメンテーション機能を次のレベルに引き上げ、画像と動画の両方のリアルタイムセグメンテーションを可能にしました。
SAM 2の主な特徴:
- 画像と動画の両方でリアルタイムオブジェクトセグメンテーションを行う初の統合モデル
- 既存の手法と比較して精度とパフォーマンスが向上
- あらゆる動画のあらゆるオブジェクトをセグメント化する優れたゼロショット汎化能力
- インタラクション時間が従来のモデルの3分の1に短縮
SAM 2は、動画内の幅広いオブジェクトを正確にセグメント化できます。例えば:
- サッカーボールやトランプカードなどの動く物体
- こねられている生地のような変形する物体
- 泳いでいるカラフルな魚
- 顕微鏡で見える細胞
モデルと共に、MetaはSA-Vデータセットもリリースしました:
- 約51,000の実世界の動画を含む
- 600,000以上の時空間マスク(マスクレット)
- 既存の動画セグメンテーションデータセットの4.5倍の規模
- 53倍多いアノテーション
このデータセットは、視覚データのアノテーションを大幅に加速し、より優れたコンピュータビジョンシステムの構築に役立ちます。
SAM 2の潜在的な応用分野:
- 生成型動画モデルと組み合わせた創造的な動画効果
- 絶滅危惧種の動物のドローン映像におけるオブジェクトの追跡
- 医療処理中の腹腔鏡カメラフィードの領域特定
- リアルタイムの動画編集とライブストリーミング効果
- 自動運転車などのコンピュータビジョンシステムのトレーニングデータ用アノテーションツール
SAM 2のオープンソース化は、オープンな協力を通じてAIを進歩させるというMetaのコミットメントを継続するものです。モデルとデータセットは寛容なライセンスの下で利用可能で、学術利用と商業利用の両方が許可されています。
SAM 2をリリースすることで、Metaはコンピュータビジョンにおける革新的なアプリケーションの構築と新しい発見を行うAIコミュニティに力を与えることを目指しています。SAM 2の統合された画像と動画のセグメンテーション機能は、コンテンツ制作から科学研究まで、業界を超えてエキサイティングな可能性を開きます。