A Meta recentemente revelou o SAM2, a segunda geração do seu modelo de IA "segment anything", na SIGGRAPH. Em comparação com a versão anterior, o SAM2 expande suas capacidades da segmentação de imagens para a segmentação de vídeos. Ele pode processar vídeos de qualquer duração em tempo real e facilmente segmentar e rastrear objetos que não foram vistos anteriormente no vídeo.
Crucialmente, o código do modelo, os pesos e o conjunto de dados foram todos disponibilizados em código aberto. Como a série Llama, ele segue a licença Apache 2.0 e compartilha o código de avaliação sob a licença BSD-3.
A Meta afirmou que o conjunto de dados de código aberto inclui 51.000 vídeos do mundo real e 600.000 máscaras espaço-temporais (masklets), superando em muito a escala de conjuntos de dados similares anteriores. Uma demonstração online também está disponível para todos experimentarem.
O SAM2 se baseia no SAM adicionando um módulo de memória. Suas principais melhorias incluem:
- Segmentação em tempo real de vídeos de qualquer duração
- Generalização zero-shot
- Melhoria na precisão de segmentação e rastreamento
- Resolução de problemas de oclusão
O processo de segmentação interativa consiste principalmente em duas etapas: seleção e refinamento. No primeiro quadro, os usuários selecionam o objeto-alvo clicando. O SAM2 então propaga automaticamente a segmentação para os quadros subsequentes, formando uma máscara espaço-temporal. Se o SAM2 perder o objeto-alvo em certos quadros, os usuários podem corrigi-lo fornecendo prompts adicionais em um novo quadro.
A ideia central do SAM2 é tratar imagens como vídeos de um único quadro, permitindo a extensão direta do SAM para o domínio de vídeo, ao mesmo tempo que suporta entradas de imagem e vídeo. A única diferença no processamento de vídeos é que o modelo precisa contar com a memória para lembrar informações processadas para a segmentação precisa de objetos no passo de tempo atual.
Para abordar os desafios da segmentação de vídeo, a Meta focou em três áreas principais:
- Projetar uma tarefa de segmentação visual baseada em prompts
- Desenvolver um novo modelo baseado no SAM
- Construir o conjunto de dados SA-V
A equipe projetou uma tarefa de segmentação visual que generaliza a segmentação de imagens para vídeos. O SAM2 é treinado para aceitar prompts em qualquer quadro de um vídeo para definir a máscara espaço-temporal a ser prevista. Ele faz previsões instantâneas de máscaras no quadro atual com base nos prompts de entrada e realiza propagação temporal para gerar máscaras para o objeto-alvo em todos os quadros.
Ao introduzir memória de streaming, o modelo pode processar vídeos em tempo real e segmentar e rastrear objetos-alvo com mais precisão. O componente de memória consiste em um codificador de memória, banco de memória e módulo de atenção de memória. Esse design permite que o modelo processe vídeos de qualquer duração, o que é importante para a coleta de anotações no conjunto de dados SA-V e tem impactos potenciais em campos como a robótica.
O SAM2 também produz múltiplas máscaras válidas se o objeto segmentado for ambíguo. Além disso, para lidar com oclusão em vídeos, o SAM2 inclui uma "cabeça de oclusão" extra para prever se um objeto aparece no quadro atual.
O conjunto de dados SA-V contém 4,5 vezes mais vídeos e 53 vezes mais anotações do que o maior conjunto de dados similar existente. Para coletar uma quantidade tão grande de dados, a equipe de pesquisa construiu um mecanismo de dados que melhora iterativamente tanto o conjunto de dados quanto o modelo.
Em comparação com métodos semi-supervisionados de última geração, o SAM2 tem um bom desempenho em várias métricas. No entanto, a equipe de pesquisa reconhece algumas limitações, como potencialmente perder o rastro de objetos em cenas lotadas ou com mudanças significativas de ângulo de câmera. Eles projetaram um modo interativo em tempo real para suportar correções manuais para tais casos.
O modelo não só é de código aberto para uso gratuito, mas também está hospedado em plataformas como o Amazon SageMaker.