Meta представила SAM 2.0: отслеживание движущихся объектов одним нажатием кнопки, полностью открытый исходный код

Пробная версия игры уже доступна, игроки могут опробовать часть контента.

Meta недавно представила SAM2, второе поколение своей модели искусственного интеллекта "сегментировать что угодно", на конференции SIGGRAPH. По сравнению с предыдущей версией, SAM2 расширяет свои возможности от сегментации изображений до сегментации видео. Она может обрабатывать видео любой длины в реальном времени и легко сегментировать и отслеживать объекты, которые ранее не встречались в видео.

Важно отметить, что код модели, веса и набор данных были полностью открыты. Как и серия Llama, она следует лицензии Apache 2.0 и предоставляет код для оценки по лицензии BSD-3.

Meta заявила, что открытый набор данных включает 51 000 реальных видео и 600 000 пространственно-временных масок (маскетов), что значительно превышает масштаб предыдущих аналогичных наборов данных. Также доступна онлайн-демонстрация для всех желающих.

SAM2 основывается на SAM, добавляя модуль памяти. Ключевые улучшения включают:

  • Сегментацию видео любой длины в реальном времени
  • Обобщение с нулевым обучением
  • Улучшенную точность сегментации и отслеживания
  • Решение проблем окклюзии

Процесс интерактивной сегментации в основном состоит из двух этапов: выбора и уточнения. В первом кадре пользователи выбирают целевой объект, кликая по нему. Затем SAM2 автоматически распространяет сегментацию на последующие кадры, формируя пространственно-временную маску. Если SAM2 теряет целевой объект в определенных кадрах, пользователи могут исправить это, предоставив дополнительные подсказки в новом кадре.

Основная идея SAM2 заключается в том, чтобы рассматривать изображения как одиночные кадры видео, что позволяет напрямую расширить возможности от SAM до видеообласти, поддерживая при этом как изображения, так и видеовходы. Единственное отличие в обработке видео заключается в том, что модели необходимо полагаться на память для вспоминания обработанной информации для точной сегментации объектов на текущем временном шаге.

Для решения проблем сегментации видео Meta сосредоточилась на трех основных областях:

  1. Разработка задачи визуальной сегментации с подсказками
  2. Разработка новой модели на основе SAM
  3. Создание набора данных SA-V

Команда разработала задачу визуальной сегментации, которая обобщает сегментацию изображений на видео. SAM2 обучена принимать подсказки в любом кадре видео для определения пространственно-временной маски, которую нужно предсказать. Она делает мгновенные предсказания масок на текущем кадре на основе входных подсказок и выполняет временное распространение для создания масок целевого объекта во всех кадрах.

Благодаря введению потоковой памяти модель может обрабатывать видео в реальном времени и более точно сегментировать и отслеживать целевые объекты. Компонент памяти состоит из кодировщика памяти, банка памяти и модуля внимания памяти. Такая конструкция позволяет модели обрабатывать видео любой длины, что важно для сбора аннотаций в наборе данных SA-V и имеет потенциальное влияние в таких областях, как робототехника.

SAM2 также выводит несколько действительных масок, если сегментированный объект неоднозначен. Кроме того, для обработки окклюзии в видео SAM2 включает дополнительную "голову окклюзии" для предсказания, появляется ли объект в текущем кадре.

Набор данных SA-V содержит в 4,5 раза больше видео и в 53 раза больше аннотаций, чем самый большой существующий аналогичный набор данных. Для сбора такого большого объема данных исследовательская команда создала механизм данных, который итеративно улучшает как набор данных, так и модель.

По сравнению с современными полуконтролируемыми методами, SAM2 показывает хорошие результаты по различным метрикам. Однако исследовательская команда признает некоторые ограничения, такие как возможная потеря отслеживания объектов в многолюдных сценах или при значительных изменениях угла камеры. Они разработали интерактивный режим реального времени для поддержки ручных исправлений в таких случаях.

Модель не только открыта для свободного использования, но и размещена на таких платформах, как Amazon SageMaker.