Meta lanza en código abierto "Segment Anything" 2.0: Un nuevo avance en segmentación de video

Modelo de "segmentación universal" revolucionario

Meta ha vuelto a lanzar como código abierto un modelo revolucionario: Segment Anything Model 2 (SAM 2). Basándose en el éxito del SAM original, SAM 2 lleva las capacidades de segmentación al siguiente nivel al permitir la segmentación en tiempo real de imágenes y videos.

Características clave de SAM 2:

  • Primer modelo unificado para segmentación de objetos en tiempo real tanto en imágenes como en videos
  • Precisión y rendimiento mejorados en comparación con los métodos existentes
  • Excelente capacidad de generalización de cero disparos para segmentar cualquier objeto en cualquier video
  • Tiempo de interacción reducido a un tercio de los modelos anteriores

SAM 2 puede segmentar con precisión una amplia gama de objetos en videos, incluyendo:

  • Objetos en movimiento como balones de fútbol y naipes
  • Objetos deformables como masa siendo amasada
  • Peces coloridos nadando
  • Células microscópicas

Junto con el modelo, Meta también lanzó el conjunto de datos SA-V:

  • Contiene ~51,000 videos del mundo real
  • Más de 600,000 máscaras espacio-temporales (masklets)
  • 4.5 veces más grande que los conjuntos de datos de segmentación de video existentes
  • 53 veces más anotaciones

Este conjunto de datos acelerará enormemente la anotación de datos visuales y ayudará a construir mejores sistemas de visión por computadora.

Las aplicaciones potenciales de SAM 2 incluyen:

  • Efectos creativos de video cuando se combina con modelos generativos de video
  • Seguimiento de objetos en imágenes de drones de animales en peligro de extinción
  • Localización de regiones en transmisiones de cámaras laparoscópicas durante procedimientos médicos
  • Edición de video en tiempo real y efectos de transmisión en vivo
  • Herramienta de anotación para datos de entrenamiento en sistemas de visión por computadora como automóviles autónomos

El lanzamiento de SAM 2 como código abierto continúa el compromiso de Meta de avanzar en la IA a través de la colaboración abierta. El modelo y el conjunto de datos están disponibles bajo licencias permisivas, permitiendo tanto el uso académico como comercial.

Al lanzar SAM 2, Meta busca empoderar a la comunidad de IA para construir aplicaciones innovadoras y hacer nuevos descubrimientos en visión por computadora. Las capacidades unificadas de segmentación de imágenes y videos de SAM 2 abren posibilidades emocionantes en diversas industrias, desde la creación de contenido hasta la investigación científica.

Repositorio de GitHub