Meta推出SAM 2.0：一鍵追蹤運動物體，全面開源

Meta 最近在 SIGGRAPH 上發布了 SAM2，這是他們「分割任何物體」AI 模型的第二代。與前一版相比，SAM2 將其功能從圖像分割擴展到視頻分割。它可以實時處理任何長度的視頻，並輕鬆分割和追蹤視頻中之前未見過的物體。

關鍵是，該模型的代碼、權重和數據集都已開源。與 Llama 系列一樣，它遵循 Apache 2.0 許可證，並根據 BSD-3 許可證共享評估代碼。

Meta 表示，開源數據集包括 51,000 個真實世界視頻和 600,000 個時空掩碼（masklets），遠超過以往類似數據集的規模。還提供了在線演示供大家體驗。

SAM2 在 SAM 的基礎上增加了記憶模塊。其主要升級包括：

交互式分割過程主要包括兩個步驟：選擇和細化。在第一幀中，用戶通過點擊選擇目標物體。然後 SAM2 自動將分割傳播到後續幀，形成時空掩碼。如果 SAM2 在某些幀中丟失目標物體，用戶可以通過在新幀中提供額外提示來進行修正。

SAM2 的核心思想是將圖像視為單幀視頻，允許從 SAM 直接擴展到視頻領域，同時支持圖像和視頻輸入。處理視頻的唯一區別是模型需要依賴記憶來回顧已處理的信息，以便在當前時間步驟中準確分割物體。

為解決視頻分割的挑戰，Meta 專注於三個主要領域：

團隊設計了一個將圖像分割泛化到視頻的視覺分割任務。SAM2 被訓練接受視頻任何幀中的提示來定義要預測的時空掩碼。它根據輸入提示在當前幀上進行即時掩碼預測，並執行時間傳播以生成目標物體在所有幀中的掩碼。

通過引入流式記憶，模型可以實時處理視頻，更準確地分割和追蹤目標物體。記憶組件包括記憶編碼器、記憶庫和記憶注意力模塊。這種設計使模型能夠處理任何長度的視頻，這對於 SA-V 數據集中的註釋收集很重要，並可能對機器人等領域產生影響。

如果分割的物體不明確，SAM2 還會輸出多個有效掩碼。此外，為處理視頻中的遮擋，SAM2 包括一個額外的「遮擋頭」來預測物體是否出現在當前幀中。

SA-V 數據集包含的視頻數量是現有最大類似數據集的 4.5 倍，註釋數量是 53 倍。為收集如此大量的數據，研究團隊構建了一個數據引擎，迭代改進數據集和模型。

與最先進的半監督方法相比，SAM2 在各種指標上表現良好。然而，研究團隊承認存在一些限制，例如在擁擠場景或相機角度變化顯著時可能會丟失物體追蹤。他們設計了實時交互模式來支持此類情況的手動修正。

該模型不僅開源供免費使用，還托管在 Amazon SageMaker 等平台上。

遊戲試玩版現已推出，玩家可體驗部分內容。