Meta 最近在 SIGGRAPH 上發布了 SAM2,這是他們「分割任何物體」AI 模型的第二代。與前一版相比,SAM2 將其功能從圖像分割擴展到視頻分割。它可以實時處理任何長度的視頻,並輕鬆分割和追蹤視頻中之前未見過的物體。
關鍵是,該模型的代碼、權重和數據集都已開源。與 Llama 系列一樣,它遵循 Apache 2.0 許可證,並根據 BSD-3 許可證共享評估代碼。
Meta 表示,開源數據集包括 51,000 個真實世界視頻和 600,000 個時空掩碼(masklets),遠超過以往類似數據集的規模。還提供了在線演示供大家體驗。
SAM2 在 SAM 的基礎上增加了記憶模塊。其主要升級包括:
- 實時分割任何長度的視頻
- 零樣本泛化
- 改進的分割和追蹤精度
- 解決遮擋問題
交互式分割過程主要包括兩個步驟:選擇和細化。在第一幀中,用戶通過點擊選擇目標物體。然後 SAM2 自動將分割傳播到後續幀,形成時空掩碼。如果 SAM2 在某些幀中丟失目標物體,用戶可以通過在新幀中提供額外提示來進行修正。
SAM2 的核心思想是將圖像視為單幀視頻,允許從 SAM 直接擴展到視頻領域,同時支持圖像和視頻輸入。處理視頻的唯一區別是模型需要依賴記憶來回顧已處理的信息,以便在當前時間步驟中準確分割物體。
為解決視頻分割的挑戰,Meta 專注於三個主要領域:
- 設計可提示的視覺分割任務
- 基於 SAM 開發新模型
- 構建 SA-V 數據集
團隊設計了一個將圖像分割泛化到視頻的視覺分割任務。SAM2 被訓練接受視頻任何幀中的提示來定義要預測的時空掩碼。它根據輸入提示在當前幀上進行即時掩碼預測,並執行時間傳播以生成目標物體在所有幀中的掩碼。
通過引入流式記憶,模型可以實時處理視頻,更準確地分割和追蹤目標物體。記憶組件包括記憶編碼器、記憶庫和記憶注意力模塊。這種設計使模型能夠處理任何長度的視頻,這對於 SA-V 數據集中的註釋收集很重要,並可能對機器人等領域產生影響。
如果分割的物體不明確,SAM2 還會輸出多個有效掩碼。此外,為處理視頻中的遮擋,SAM2 包括一個額外的「遮擋頭」來預測物體是否出現在當前幀中。
SA-V 數據集包含的視頻數量是現有最大類似數據集的 4.5 倍,註釋數量是 53 倍。為收集如此大量的數據,研究團隊構建了一個數據引擎,迭代改進數據集和模型。
與最先進的半監督方法相比,SAM2 在各種指標上表現良好。然而,研究團隊承認存在一些限制,例如在擁擠場景或相機角度變化顯著時可能會丟失物體追蹤。他們設計了實時交互模式來支持此類情況的手動修正。
該模型不僅開源供免費使用,還托管在 Amazon SageMaker 等平台上。