Meta再次開源了一個突破性的模型 - Segment Anything Model 2(SAM 2)。在原始SAM的成功基礎上,SAM 2將分割能力提升到新的水平,實現了圖像和視頻的實時分割。
SAM 2的主要特點:
- 首個統一的圖像和視頻實時物體分割模型
- 與現有方法相比,準確性和性能得到提升
- 出色的零樣本泛化能力,可以分割任何視頻中的任何物體
- 交互時間縮短至之前模型的三分之一
SAM 2可以準確分割視頻中各種物體,包括:
- 移動物體,如足球和撲克牌
- 可變形物體,如正在揉捏的麵團
- 游泳的彩色魚
- 微觀細胞
Meta還同時發布了SA-V數據集:
- 包含約51,000個真實世界的視頻
- 超過600,000個時空掩碼(masklets)
- 比現有視頻分割數據集大4.5倍
- 註釋數量是現有數據集的53倍
這個數據集將大大加速視覺數據註釋,並有助於構建更好的計算機視覺系統。
SAM 2的潛在應用包括:
- 與生成式視頻模型結合,創造創意視頻效果
- 追蹤無人機拍攝的瀕危動物影像中的物體
- 在醫療程序中定位腹腔鏡攝像頭畫面中的區域
- 實時視頻編輯和直播效果
- 用於訓練計算機視覺系統(如自動駕駛汽車)的數據註釋工具
SAM 2的開源延續了Meta通過開放合作推進人工智能發展的承諾。該模型和數據集以寬鬆的許可證提供,允許學術和商業使用。
通過發布SAM 2,Meta旨在賦能人工智能社區,以構建創新應用並在計算機視覺領域取得新的發現。SAM 2統一的圖像和視頻分割能力為從內容創作到科學研究的各個行業開啟了令人興奮的可能性。