Meta a une fois de plus rendu open source un modèle révolutionnaire - Segment Anything Model 2 (SAM 2). S'appuyant sur le succès du SAM original, SAM 2 pousse les capacités de segmentation à un niveau supérieur en permettant la segmentation en temps réel des images et des vidéos.
Caractéristiques principales de SAM 2 :
- Premier modèle unifié pour la segmentation d'objets en temps réel dans les images et les vidéos
- Précision et performances améliorées par rapport aux méthodes existantes
- Excellente capacité de généralisation zero-shot pour segmenter n'importe quel objet dans n'importe quelle vidéo
- Temps d'interaction réduit à un tiers par rapport aux modèles précédents
SAM 2 peut segmenter avec précision une large gamme d'objets dans les vidéos, notamment :
- Des objets en mouvement comme des ballons de football et des cartes à jouer
- Des objets déformables comme de la pâte en train d'être pétrie
- Des poissons colorés nageant
- Des cellules microscopiques
Avec le modèle, Meta a également publié le jeu de données SA-V :
- Contient environ 51 000 vidéos du monde réel
- Plus de 600 000 masques spatio-temporels (masklets)
- 4,5 fois plus grand que les jeux de données de segmentation vidéo existants
- 53 fois plus d'annotations
Ce jeu de données accélérera grandement l'annotation des données visuelles et aidera à construire de meilleurs systèmes de vision par ordinateur.
Les applications potentielles de SAM 2 incluent :
- Effets vidéo créatifs lorsqu'il est combiné avec des modèles de génération vidéo
- Suivi d'objets dans les images de drones d'animaux en voie de disparition
- Localisation de régions dans les flux de caméras laparoscopiques lors de procédures médicales
- Montage vidéo en temps réel et effets de diffusion en direct
- Outil d'annotation pour les données d'entraînement dans les systèmes de vision par ordinateur comme les voitures autonomes
L'open-sourcing de SAM 2 poursuit l'engagement de Meta à faire progresser l'IA grâce à une collaboration ouverte. Le modèle et le jeu de données sont disponibles sous des licences permissives, permettant une utilisation académique et commerciale.
En publiant SAM 2, Meta vise à donner les moyens à la communauté de l'IA de créer des applications innovantes et de faire de nouvelles découvertes en vision par ordinateur. Les capacités unifiées de segmentation d'images et de vidéos de SAM 2 ouvrent des possibilités passionnantes dans tous les secteurs, de la création de contenu à la recherche scientifique.