Meta открывает исходный код "Segment Anything" 2.0: новый прорыв в сегментации видео

Прорывная модель "универсальной сегментации"

Meta в очередной раз открыла исходный код революционной модели - Segment Anything Model 2 (SAM 2). Основываясь на успехе оригинальной SAM, SAM 2 выводит возможности сегментации на новый уровень, позволяя выполнять сегментацию изображений и видео в реальном времени.

Ключевые особенности SAM 2:

  • Первая унифицированная модель для сегментации объектов в реальном времени как на изображениях, так и в видео
  • Улучшенная точность и производительность по сравнению с существующими методами
  • Отличная способность к обобщению без предварительного обучения для сегментации любого объекта в любом видео
  • Время взаимодействия сокращено до одной трети по сравнению с предыдущими моделями

SAM 2 может точно сегментировать широкий спектр объектов в видео, включая:

  • Движущиеся объекты, такие как футбольные мячи и игральные карты
  • Деформируемые объекты, например, замешиваемое тесто
  • Плавающие разноцветные рыбы
  • Микроскопические клетки

Вместе с моделью Meta также выпустила набор данных SA-V:

  • Содержит около 51 000 реальных видео
  • Более 600 000 пространственно-временных масок (маскетов)
  • В 4,5 раза больше существующих наборов данных для сегментации видео
  • В 53 раза больше аннотаций

Этот набор данных значительно ускорит аннотацию визуальных данных и поможет создать лучшие системы компьютерного зрения.

Потенциальные применения SAM 2 включают:

  • Креативные видеоэффекты при комбинировании с генеративными видеомоделями
  • Отслеживание объектов в видеосъемке с дронов исчезающих видов животных
  • Локализация областей в видеопотоках лапароскопических камер во время медицинских процедур
  • Редактирование видео в реальном времени и эффекты для прямых трансляций
  • Инструмент аннотации для обучающих данных в системах компьютерного зрения, таких как беспилотные автомобили

Открытие исходного кода SAM 2 продолжает приверженность Meta развитию ИИ через открытое сотрудничество. Модель и набор данных доступны по разрешительным лицензиям, допускающим как академическое, так и коммерческое использование.

Выпуская SAM 2, Meta стремится дать возможность сообществу ИИ создавать инновационные приложения и делать новые открытия в области компьютерного зрения. Унифицированные возможности сегментации изображений и видео SAM 2 открывают захватывающие перспективы в различных отраслях: от создания контента до научных исследований.

Репозиторий GitHub