Meta ouvre le code source de "Segment Anything" 2.0 : une nouvelle percée dans la segmentation vidéo

Meta a une fois de plus rendu open source un modèle révolutionnaire - Segment Anything Model 2 (SAM 2). S'appuyant sur le succès du SAM original, SAM 2 pousse les capacités de segmentation à un niveau supérieur en permettant la segmentation en temps réel des images et des vidéos.

Caractéristiques principales de SAM 2 :

Premier modèle unifié pour la segmentation d'objets en temps réel dans les images et les vidéos
Précision et performances améliorées par rapport aux méthodes existantes
Excellente capacité de généralisation zero-shot pour segmenter n'importe quel objet dans n'importe quelle vidéo
Temps d'interaction réduit à un tiers par rapport aux modèles précédents

SAM 2 peut segmenter avec précision une large gamme d'objets dans les vidéos, notamment :

Des objets en mouvement comme des ballons de football et des cartes à jouer
Des objets déformables comme de la pâte en train d'être pétrie
Des poissons colorés nageant
Des cellules microscopiques

Avec le modèle, Meta a également publié le jeu de données SA-V :

Contient environ 51 000 vidéos du monde réel
Plus de 600 000 masques spatio-temporels (masklets)
4,5 fois plus grand que les jeux de données de segmentation vidéo existants
53 fois plus d'annotations

Ce jeu de données accélérera grandement l'annotation des données visuelles et aidera à construire de meilleurs systèmes de vision par ordinateur.

Les applications potentielles de SAM 2 incluent :

Effets vidéo créatifs lorsqu'il est combiné avec des modèles de génération vidéo
Suivi d'objets dans les images de drones d'animaux en voie de disparition
Localisation de régions dans les flux de caméras laparoscopiques lors de procédures médicales
Montage vidéo en temps réel et effets de diffusion en direct
Outil d'annotation pour les données d'entraînement dans les systèmes de vision par ordinateur comme les voitures autonomes

L'open-sourcing de SAM 2 poursuit l'engagement de Meta à faire progresser l'IA grâce à une collaboration ouverte. Le modèle et le jeu de données sont disponibles sous des licences permissives, permettant une utilisation académique et commerciale.

En publiant SAM 2, Meta vise à donner les moyens à la communauté de l'IA de créer des applications innovantes et de faire de nouvelles découvertes en vision par ordinateur. Les capacités unifiées de segmentation d'images et de vidéos de SAM 2 ouvrent des possibilités passionnantes dans tous les secteurs, de la création de contenu à la recherche scientifique.

Dépôt GitHub

Meta ouvre le code source de "Segment Anything" 2.0 : une nouvelle percée dans la segmentation vidéo

Modèle révolutionnaire de "segmentation universelle"