A Meta mais uma vez disponibilizou em código aberto um modelo inovador - o Segment Anything Model 2 (SAM 2). Baseando-se no sucesso do SAM original, o SAM 2 leva as capacidades de segmentação a um novo patamar, permitindo a segmentação em tempo real de imagens e vídeos.
Principais características do SAM 2:
- Primeiro modelo unificado para segmentação de objetos em tempo real em imagens e vídeos
- Precisão e desempenho aprimorados em comparação com métodos existentes
- Excelente capacidade de generalização zero-shot para segmentar qualquer objeto em qualquer vídeo
- Tempo de interação reduzido para um terço dos modelos anteriores
O SAM 2 pode segmentar com precisão uma ampla gama de objetos em vídeos, incluindo:
- Objetos em movimento como bolas de futebol e cartas de baralho
- Objetos deformáveis como massa sendo amassada
- Peixes coloridos nadando
- Células microscópicas
Junto com o modelo, a Meta também lançou o conjunto de dados SA-V:
- Contém ~51.000 vídeos do mundo real
- Mais de 600.000 máscaras espaço-temporais (masklets)
- 4,5 vezes maior que os conjuntos de dados existentes de segmentação de vídeo
- 53 vezes mais anotações
Este conjunto de dados acelerará significativamente a anotação de dados visuais e ajudará a construir melhores sistemas de visão computacional.
Potenciais aplicações do SAM 2 incluem:
- Efeitos criativos em vídeos quando combinados com modelos generativos de vídeo
- Rastreamento de objetos em filmagens de drones de animais em extinção
- Localização de regiões em feeds de câmeras laparoscópicas durante procedimentos médicos
- Edição de vídeo em tempo real e efeitos de transmissão ao vivo
- Ferramenta de anotação para dados de treinamento em sistemas de visão computacional como carros autônomos
A disponibilização em código aberto do SAM 2 continua o compromisso da Meta em avançar a IA através da colaboração aberta. O modelo e o conjunto de dados estão disponíveis sob licenças permissivas, permitindo uso acadêmico e comercial.
Ao lançar o SAM 2, a Meta visa capacitar a comunidade de IA para construir aplicações inovadoras e fazer novas descobertas em visão computacional. As capacidades unificadas de segmentação de imagem e vídeo do SAM 2 abrem possibilidades empolgantes em diversas indústrias, desde criação de conteúdo até pesquisa científica.