Meta недавно представила SAM2, второе поколение своей модели искусственного интеллекта "сегментировать что угодно", на конференции SIGGRAPH. По сравнению с предыдущей версией, SAM2 расширяет свои возможности от сегментации изображений до сегментации видео. Она может обрабатывать видео любой длины в реальном времени и легко сегментировать и отслеживать объекты, которые ранее не встречались в видео.
Важно отметить, что код модели, веса и набор данных были полностью открыты. Как и серия Llama, она следует лицензии Apache 2.0 и предоставляет код для оценки по лицензии BSD-3.
Meta заявила, что открытый набор данных включает 51 000 реальных видео и 600 000 пространственно-временных масок (маскетов), что значительно превышает масштаб предыдущих аналогичных наборов данных. Также доступна онлайн-демонстрация для всех желающих.
SAM2 основывается на SAM, добавляя модуль памяти. Ключевые улучшения включают:
- Сегментацию видео любой длины в реальном времени
- Обобщение с нулевым обучением
- Улучшенную точность сегментации и отслеживания
- Решение проблем окклюзии
Процесс интерактивной сегментации в основном состоит из двух этапов: выбора и уточнения. В первом кадре пользователи выбирают целевой объект, кликая по нему. Затем SAM2 автоматически распространяет сегментацию на последующие кадры, формируя пространственно-временную маску. Если SAM2 теряет целевой объект в определенных кадрах, пользователи могут исправить это, предоставив дополнительные подсказки в новом кадре.
Основная идея SAM2 заключается в том, чтобы рассматривать изображения как одиночные кадры видео, что позволяет напрямую расширить возможности от SAM до видеообласти, поддерживая при этом как изображения, так и видеовходы. Единственное отличие в обработке видео заключается в том, что модели необходимо полагаться на память для вспоминания обработанной информации для точной сегментации объектов на текущем временном шаге.
Для решения проблем сегментации видео Meta сосредоточилась на трех основных областях:
- Разработка задачи визуальной сегментации с подсказками
- Разработка новой модели на основе SAM
- Создание набора данных SA-V
Команда разработала задачу визуальной сегментации, которая обобщает сегментацию изображений на видео. SAM2 обучена принимать подсказки в любом кадре видео для определения пространственно-временной маски, которую нужно предсказать. Она делает мгновенные предсказания масок на текущем кадре на основе входных подсказок и выполняет временное распространение для создания масок целевого объекта во всех кадрах.
Благодаря введению потоковой памяти модель может обрабатывать видео в реальном времени и более точно сегментировать и отслеживать целевые объекты. Компонент памяти состоит из кодировщика памяти, банка памяти и модуля внимания памяти. Такая конструкция позволяет модели обрабатывать видео любой длины, что важно для сбора аннотаций в наборе данных SA-V и имеет потенциальное влияние в таких областях, как робототехника.
SAM2 также выводит несколько действительных масок, если сегментированный объект неоднозначен. Кроме того, для обработки окклюзии в видео SAM2 включает дополнительную "голову окклюзии" для предсказания, появляется ли объект в текущем кадре.
Набор данных SA-V содержит в 4,5 раза больше видео и в 53 раза больше аннотаций, чем самый большой существующий аналогичный набор данных. Для сбора такого большого объема данных исследовательская команда создала механизм данных, который итеративно улучшает как набор данных, так и модель.
По сравнению с современными полуконтролируемыми методами, SAM2 показывает хорошие результаты по различным метрикам. Однако исследовательская команда признает некоторые ограничения, такие как возможная потеря отслеживания объектов в многолюдных сценах или при значительных изменениях угла камеры. Они разработали интерактивный режим реального времени для поддержки ручных исправлений в таких случаях.
Модель не только открыта для свободного использования, но и размещена на таких платформах, как Amazon SageMaker.