Meta a récemment dévoilé SAM2, la deuxième génération de leur modèle d'IA "segment anything", lors du SIGGRAPH. Par rapport à la version précédente, SAM2 étend ses capacités de la segmentation d'images à la segmentation vidéo. Il peut traiter des vidéos de n'importe quelle longueur en temps réel et segmenter et suivre facilement des objets qui n'avaient pas été vus auparavant dans la vidéo.
Fait crucial, le code du modèle, ses poids et son jeu de données ont tous été rendus open source. Comme la série Llama, il suit la licence Apache 2.0 et partage le code d'évaluation sous la licence BSD-3.
Meta a déclaré que le jeu de données open source comprend 51 000 vidéos du monde réel et 600 000 masques spatio-temporels (masklets), dépassant largement l'échelle des jeux de données similaires précédents. Une démo en ligne est également disponible pour que tout le monde puisse l'expérimenter.
SAM2 s'appuie sur SAM en ajoutant un module de mémoire. Ses principales améliorations comprennent :
- Segmentation en temps réel de vidéos de n'importe quelle longueur
- Généralisation zéro-shot
- Amélioration de la précision de la segmentation et du suivi
- Résolution des problèmes d'occlusion
Le processus de segmentation interactive se compose principalement de deux étapes : la sélection et le raffinement. Dans la première image, les utilisateurs sélectionnent l'objet cible en cliquant. SAM2 propage ensuite automatiquement la segmentation aux images suivantes, formant un masque spatio-temporel. Si SAM2 perd l'objet cible dans certaines images, les utilisateurs peuvent le corriger en fournissant des indications supplémentaires dans une nouvelle image.
L'idée centrale de SAM2 est de traiter les images comme des vidéos à une seule image, permettant une extension directe de SAM au domaine vidéo tout en prenant en charge les entrées d'images et de vidéos. La seule différence dans le traitement des vidéos est que le modèle doit s'appuyer sur la mémoire pour se rappeler des informations traitées afin de segmenter avec précision les objets dans l'étape temporelle actuelle.
Pour relever les défis de la segmentation vidéo, Meta s'est concentré sur trois domaines principaux :
- Concevoir une tâche de segmentation visuelle pouvant être guidée
- Développer un nouveau modèle basé sur SAM
- Construire le jeu de données SA-V
L'équipe a conçu une tâche de segmentation visuelle qui généralise la segmentation d'images aux vidéos. SAM2 est formé pour accepter des indications dans n'importe quelle image d'une vidéo pour définir le masque spatio-temporel à prédire. Il fait des prédictions de masque instantanées sur l'image actuelle en fonction des indications d'entrée et effectue une propagation temporelle pour générer des masques pour l'objet cible dans toutes les images.
En introduisant une mémoire en streaming, le modèle peut traiter les vidéos en temps réel et segmenter et suivre plus précisément les objets cibles. Le composant de mémoire comprend un encodeur de mémoire, une banque de mémoire et un module d'attention de mémoire. Cette conception permet au modèle de traiter des vidéos de n'importe quelle longueur, ce qui est important pour la collecte d'annotations dans le jeu de données SA-V et a des impacts potentiels dans des domaines comme la robotique.
SAM2 produit également plusieurs masques valides si l'objet segmenté est ambigu. De plus, pour gérer l'occlusion dans les vidéos, SAM2 inclut une "tête d'occlusion" supplémentaire pour prédire si un objet apparaît dans l'image actuelle.
Le jeu de données SA-V contient 4,5 fois plus de vidéos et 53 fois plus d'annotations que le plus grand jeu de données similaire existant. Pour collecter une telle quantité de données, l'équipe de recherche a construit un moteur de données qui améliore itérativement à la fois le jeu de données et le modèle.
Par rapport aux méthodes semi-supervisées de pointe, SAM2 performe bien selon diverses métriques. Cependant, l'équipe de recherche reconnaît certaines limitations, comme la possibilité de perdre la trace des objets dans des scènes encombrées ou avec des changements importants d'angle de caméra. Ils ont conçu un mode interactif en temps réel pour prendre en charge les corrections manuelles dans de tels cas.
Le modèle est non seulement open source pour une utilisation gratuite, mais il est également hébergé sur des plateformes comme Amazon SageMaker.