Meta lanza SAM 2.0: seguimiento de objetos en movimiento con un solo clic, completamente de código abierto

El demo del juego ya está disponible, permitiendo a los jugadores experimentar parte del contenido.

Meta recientemente presentó SAM2, la segunda generación de su modelo de IA "segmentar cualquier cosa", en SIGGRAPH. En comparación con la versión anterior, SAM2 amplía sus capacidades de segmentación de imágenes a segmentación de videos. Puede procesar videos de cualquier duración en tiempo real y segmentar y rastrear fácilmente objetos que no se habían visto antes en el video.

Crucialmente, el código del modelo, los pesos y el conjunto de datos se han puesto en código abierto. Al igual que la serie Llama, sigue la licencia Apache 2.0 y comparte el código de evaluación bajo la licencia BSD-3.

Meta declaró que el conjunto de datos de código abierto incluye 51,000 videos del mundo real y 600,000 máscaras espacio-temporales (masklets), superando ampliamente la escala de conjuntos de datos similares anteriores. También hay disponible una demostración en línea para que todos puedan experimentar.

SAM2 se basa en SAM añadiendo un módulo de memoria. Sus principales mejoras incluyen:

  • Segmentación en tiempo real de videos de cualquier duración
  • Generalización de cero disparos
  • Mejora de la precisión de segmentación y seguimiento
  • Resolución de problemas de oclusión

El proceso de segmentación interactiva consta principalmente de dos pasos: selección y refinamiento. En el primer fotograma, los usuarios seleccionan el objeto objetivo haciendo clic. SAM2 luego propaga automáticamente la segmentación a los fotogramas siguientes, formando una máscara espacio-temporal. Si SAM2 pierde el objeto objetivo en ciertos fotogramas, los usuarios pueden corregirlo proporcionando indicaciones adicionales en un nuevo fotograma.

La idea central de SAM2 es tratar las imágenes como videos de un solo fotograma, permitiendo la extensión directa de SAM al dominio del video mientras admite entradas de imágenes y videos. La única diferencia en el procesamiento de videos es que el modelo necesita confiar en la memoria para recordar la información procesada para una segmentación precisa del objeto en el paso de tiempo actual.

Para abordar los desafíos de la segmentación de video, Meta se centró en tres áreas principales:

  1. Diseñar una tarea de segmentación visual con indicaciones
  2. Desarrollar un nuevo modelo basado en SAM
  3. Construir el conjunto de datos SA-V

El equipo diseñó una tarea de segmentación visual que generaliza la segmentación de imágenes a videos. SAM2 está entrenado para aceptar indicaciones en cualquier fotograma de un video para definir la máscara espacio-temporal a predecir. Hace predicciones instantáneas de máscaras en el fotograma actual basadas en las indicaciones de entrada y realiza propagación temporal para generar máscaras para el objeto objetivo en todos los fotogramas.

Al introducir memoria de transmisión, el modelo puede procesar videos en tiempo real y segmentar y rastrear objetos objetivo con mayor precisión. El componente de memoria consta de un codificador de memoria, un banco de memoria y un módulo de atención de memoria. Este diseño permite que el modelo procese videos de cualquier duración, lo cual es importante para la recopilación de anotaciones en el conjunto de datos SA-V y tiene impactos potenciales en campos como la robótica.

SAM2 también produce múltiples máscaras válidas si el objeto segmentado es ambiguo. Además, para manejar la oclusión en videos, SAM2 incluye una "cabeza de oclusión" adicional para predecir si un objeto aparece en el fotograma actual.

El conjunto de datos SA-V contiene 4.5 veces más videos y 53 veces más anotaciones que el conjunto de datos similar más grande existente. Para recopilar tal cantidad de datos, el equipo de investigación construyó un motor de datos que mejora iterativamente tanto el conjunto de datos como el modelo.

En comparación con los métodos semi-supervisados de vanguardia, SAM2 funciona bien en varias métricas. Sin embargo, el equipo de investigación reconoce algunas limitaciones, como la posibilidad de perder el rastro de objetos en escenas concurridas o con cambios significativos en el ángulo de la cámara. Diseñaron un modo interactivo en tiempo real para admitir correcciones manuales en tales casos.

El modelo no solo está en código abierto para uso gratuito, sino que también está alojado en plataformas como Amazon SageMaker.