Meta lança código aberto "Segmentar Tudo" 2.0: Novo avanço na segmentação de vídeo

A Meta mais uma vez disponibilizou em código aberto um modelo inovador - o Segment Anything Model 2 (SAM 2). Baseando-se no sucesso do SAM original, o SAM 2 leva as capacidades de segmentação a um novo patamar, permitindo a segmentação em tempo real de imagens e vídeos.

Principais características do SAM 2:

Primeiro modelo unificado para segmentação de objetos em tempo real em imagens e vídeos
Precisão e desempenho aprimorados em comparação com métodos existentes
Excelente capacidade de generalização zero-shot para segmentar qualquer objeto em qualquer vídeo
Tempo de interação reduzido para um terço dos modelos anteriores

O SAM 2 pode segmentar com precisão uma ampla gama de objetos em vídeos, incluindo:

Objetos em movimento como bolas de futebol e cartas de baralho
Objetos deformáveis como massa sendo amassada
Peixes coloridos nadando
Células microscópicas

Junto com o modelo, a Meta também lançou o conjunto de dados SA-V:

Contém ~51.000 vídeos do mundo real
Mais de 600.000 máscaras espaço-temporais (masklets)
4,5 vezes maior que os conjuntos de dados existentes de segmentação de vídeo
53 vezes mais anotações

Este conjunto de dados acelerará significativamente a anotação de dados visuais e ajudará a construir melhores sistemas de visão computacional.

Potenciais aplicações do SAM 2 incluem:

Efeitos criativos em vídeos quando combinados com modelos generativos de vídeo
Rastreamento de objetos em filmagens de drones de animais em extinção
Localização de regiões em feeds de câmeras laparoscópicas durante procedimentos médicos
Edição de vídeo em tempo real e efeitos de transmissão ao vivo
Ferramenta de anotação para dados de treinamento em sistemas de visão computacional como carros autônomos

A disponibilização em código aberto do SAM 2 continua o compromisso da Meta em avançar a IA através da colaboração aberta. O modelo e o conjunto de dados estão disponíveis sob licenças permissivas, permitindo uso acadêmico e comercial.

Ao lançar o SAM 2, a Meta visa capacitar a comunidade de IA para construir aplicações inovadoras e fazer novas descobertas em visão computacional. As capacidades unificadas de segmentação de imagem e vídeo do SAM 2 abrem possibilidades empolgantes em diversas indústrias, desde criação de conteúdo até pesquisa científica.

Repositório GitHub

Meta lança código aberto "Segmentar Tudo" 2.0: Novo avanço na segmentação de vídeo

Modelo de "Segmentação Universal" revolucionário