Meta lança código aberto "Segmentar Tudo" 2.0: Novo avanço na segmentação de vídeo

Modelo de "Segmentação Universal" revolucionário

A Meta mais uma vez disponibilizou em código aberto um modelo inovador - o Segment Anything Model 2 (SAM 2). Baseando-se no sucesso do SAM original, o SAM 2 leva as capacidades de segmentação a um novo patamar, permitindo a segmentação em tempo real de imagens e vídeos.

Principais características do SAM 2:

  • Primeiro modelo unificado para segmentação de objetos em tempo real em imagens e vídeos
  • Precisão e desempenho aprimorados em comparação com métodos existentes
  • Excelente capacidade de generalização zero-shot para segmentar qualquer objeto em qualquer vídeo
  • Tempo de interação reduzido para um terço dos modelos anteriores

O SAM 2 pode segmentar com precisão uma ampla gama de objetos em vídeos, incluindo:

  • Objetos em movimento como bolas de futebol e cartas de baralho
  • Objetos deformáveis como massa sendo amassada
  • Peixes coloridos nadando
  • Células microscópicas

Junto com o modelo, a Meta também lançou o conjunto de dados SA-V:

  • Contém ~51.000 vídeos do mundo real
  • Mais de 600.000 máscaras espaço-temporais (masklets)
  • 4,5 vezes maior que os conjuntos de dados existentes de segmentação de vídeo
  • 53 vezes mais anotações

Este conjunto de dados acelerará significativamente a anotação de dados visuais e ajudará a construir melhores sistemas de visão computacional.

Potenciais aplicações do SAM 2 incluem:

  • Efeitos criativos em vídeos quando combinados com modelos generativos de vídeo
  • Rastreamento de objetos em filmagens de drones de animais em extinção
  • Localização de regiões em feeds de câmeras laparoscópicas durante procedimentos médicos
  • Edição de vídeo em tempo real e efeitos de transmissão ao vivo
  • Ferramenta de anotação para dados de treinamento em sistemas de visão computacional como carros autônomos

A disponibilização em código aberto do SAM 2 continua o compromisso da Meta em avançar a IA através da colaboração aberta. O modelo e o conjunto de dados estão disponíveis sob licenças permissivas, permitindo uso acadêmico e comercial.

Ao lançar o SAM 2, a Meta visa capacitar a comunidade de IA para construir aplicações inovadoras e fazer novas descobertas em visão computacional. As capacidades unificadas de segmentação de imagem e vídeo do SAM 2 abrem possibilidades empolgantes em diversas indústrias, desde criação de conteúdo até pesquisa científica.

Repositório GitHub