Meta представила SAM 2.0: отслеживание движущихся объектов одним нажатием кнопки, полностью открытый исходный код

Meta недавно представила SAM2, второе поколение своей модели искусственного интеллекта "сегментировать что угодно", на конференции SIGGRAPH. По сравнению с предыдущей версией, SAM2 расширяет свои возможности от сегментации изображений до сегментации видео. Она может обрабатывать видео любой длины в реальном времени и легко сегментировать и отслеживать объекты, которые ранее не встречались в видео.

Важно отметить, что код модели, веса и набор данных были полностью открыты. Как и серия Llama, она следует лицензии Apache 2.0 и предоставляет код для оценки по лицензии BSD-3.

Meta заявила, что открытый набор данных включает 51 000 реальных видео и 600 000 пространственно-временных масок (маскетов), что значительно превышает масштаб предыдущих аналогичных наборов данных. Также доступна онлайн-демонстрация для всех желающих.

SAM2 основывается на SAM, добавляя модуль памяти. Ключевые улучшения включают:

Сегментацию видео любой длины в реальном времени
Обобщение с нулевым обучением
Улучшенную точность сегментации и отслеживания
Решение проблем окклюзии

Процесс интерактивной сегментации в основном состоит из двух этапов: выбора и уточнения. В первом кадре пользователи выбирают целевой объект, кликая по нему. Затем SAM2 автоматически распространяет сегментацию на последующие кадры, формируя пространственно-временную маску. Если SAM2 теряет целевой объект в определенных кадрах, пользователи могут исправить это, предоставив дополнительные подсказки в новом кадре.

Основная идея SAM2 заключается в том, чтобы рассматривать изображения как одиночные кадры видео, что позволяет напрямую расширить возможности от SAM до видеообласти, поддерживая при этом как изображения, так и видеовходы. Единственное отличие в обработке видео заключается в том, что модели необходимо полагаться на память для вспоминания обработанной информации для точной сегментации объектов на текущем временном шаге.

Для решения проблем сегментации видео Meta сосредоточилась на трех основных областях:

Разработка задачи визуальной сегментации с подсказками
Разработка новой модели на основе SAM
Создание набора данных SA-V

Команда разработала задачу визуальной сегментации, которая обобщает сегментацию изображений на видео. SAM2 обучена принимать подсказки в любом кадре видео для определения пространственно-временной маски, которую нужно предсказать. Она делает мгновенные предсказания масок на текущем кадре на основе входных подсказок и выполняет временное распространение для создания масок целевого объекта во всех кадрах.

Благодаря введению потоковой памяти модель может обрабатывать видео в реальном времени и более точно сегментировать и отслеживать целевые объекты. Компонент памяти состоит из кодировщика памяти, банка памяти и модуля внимания памяти. Такая конструкция позволяет модели обрабатывать видео любой длины, что важно для сбора аннотаций в наборе данных SA-V и имеет потенциальное влияние в таких областях, как робототехника.

SAM2 также выводит несколько действительных масок, если сегментированный объект неоднозначен. Кроме того, для обработки окклюзии в видео SAM2 включает дополнительную "голову окклюзии" для предсказания, появляется ли объект в текущем кадре.

Набор данных SA-V содержит в 4,5 раза больше видео и в 53 раза больше аннотаций, чем самый большой существующий аналогичный набор данных. Для сбора такого большого объема данных исследовательская команда создала механизм данных, который итеративно улучшает как набор данных, так и модель.

По сравнению с современными полуконтролируемыми методами, SAM2 показывает хорошие результаты по различным метрикам. Однако исследовательская команда признает некоторые ограничения, такие как возможная потеря отслеживания объектов в многолюдных сценах или при значительных изменениях угла камеры. Они разработали интерактивный режим реального времени для поддержки ручных исправлений в таких случаях.

Модель не только открыта для свободного использования, но и размещена на таких платформах, как Amazon SageMaker.

Meta представила SAM 2.0: отслеживание движущихся объектов одним нажатием кнопки, полностью открытый исходный код

Пробная версия игры уже доступна, игроки могут опробовать часть контента.