Meta lanza en código abierto "Segment Anything" 2.0: Un nuevo avance en segmentación de video

Meta ha vuelto a lanzar como código abierto un modelo revolucionario: Segment Anything Model 2 (SAM 2). Basándose en el éxito del SAM original, SAM 2 lleva las capacidades de segmentación al siguiente nivel al permitir la segmentación en tiempo real de imágenes y videos.

Características clave de SAM 2:

Primer modelo unificado para segmentación de objetos en tiempo real tanto en imágenes como en videos
Precisión y rendimiento mejorados en comparación con los métodos existentes
Excelente capacidad de generalización de cero disparos para segmentar cualquier objeto en cualquier video
Tiempo de interacción reducido a un tercio de los modelos anteriores

SAM 2 puede segmentar con precisión una amplia gama de objetos en videos, incluyendo:

Objetos en movimiento como balones de fútbol y naipes
Objetos deformables como masa siendo amasada
Peces coloridos nadando
Células microscópicas

Junto con el modelo, Meta también lanzó el conjunto de datos SA-V:

Contiene ~51,000 videos del mundo real
Más de 600,000 máscaras espacio-temporales (masklets)
4.5 veces más grande que los conjuntos de datos de segmentación de video existentes
53 veces más anotaciones

Este conjunto de datos acelerará enormemente la anotación de datos visuales y ayudará a construir mejores sistemas de visión por computadora.

Las aplicaciones potenciales de SAM 2 incluyen:

Efectos creativos de video cuando se combina con modelos generativos de video
Seguimiento de objetos en imágenes de drones de animales en peligro de extinción
Localización de regiones en transmisiones de cámaras laparoscópicas durante procedimientos médicos
Edición de video en tiempo real y efectos de transmisión en vivo
Herramienta de anotación para datos de entrenamiento en sistemas de visión por computadora como automóviles autónomos

El lanzamiento de SAM 2 como código abierto continúa el compromiso de Meta de avanzar en la IA a través de la colaboración abierta. El modelo y el conjunto de datos están disponibles bajo licencias permisivas, permitiendo tanto el uso académico como comercial.

Al lanzar SAM 2, Meta busca empoderar a la comunidad de IA para construir aplicaciones innovadoras y hacer nuevos descubrimientos en visión por computadora. Las capacidades unificadas de segmentación de imágenes y videos de SAM 2 abren posibilidades emocionantes en diversas industrias, desde la creación de contenido hasta la investigación científica.

Repositorio de GitHub

Meta lanza en código abierto "Segment Anything" 2.0: Un nuevo avance en segmentación de video

Modelo de "segmentación universal" revolucionario