Meta ouvre le code source de "Segment Anything" 2.0 : une nouvelle percée dans la segmentation vidéo

Modèle révolutionnaire de "segmentation universelle"

Meta a une fois de plus rendu open source un modèle révolutionnaire - Segment Anything Model 2 (SAM 2). S'appuyant sur le succès du SAM original, SAM 2 pousse les capacités de segmentation à un niveau supérieur en permettant la segmentation en temps réel des images et des vidéos.

Caractéristiques principales de SAM 2 :

  • Premier modèle unifié pour la segmentation d'objets en temps réel dans les images et les vidéos
  • Précision et performances améliorées par rapport aux méthodes existantes
  • Excellente capacité de généralisation zero-shot pour segmenter n'importe quel objet dans n'importe quelle vidéo
  • Temps d'interaction réduit à un tiers par rapport aux modèles précédents

SAM 2 peut segmenter avec précision une large gamme d'objets dans les vidéos, notamment :

  • Des objets en mouvement comme des ballons de football et des cartes à jouer
  • Des objets déformables comme de la pâte en train d'être pétrie
  • Des poissons colorés nageant
  • Des cellules microscopiques

Avec le modèle, Meta a également publié le jeu de données SA-V :

  • Contient environ 51 000 vidéos du monde réel
  • Plus de 600 000 masques spatio-temporels (masklets)
  • 4,5 fois plus grand que les jeux de données de segmentation vidéo existants
  • 53 fois plus d'annotations

Ce jeu de données accélérera grandement l'annotation des données visuelles et aidera à construire de meilleurs systèmes de vision par ordinateur.

Les applications potentielles de SAM 2 incluent :

  • Effets vidéo créatifs lorsqu'il est combiné avec des modèles de génération vidéo
  • Suivi d'objets dans les images de drones d'animaux en voie de disparition
  • Localisation de régions dans les flux de caméras laparoscopiques lors de procédures médicales
  • Montage vidéo en temps réel et effets de diffusion en direct
  • Outil d'annotation pour les données d'entraînement dans les systèmes de vision par ordinateur comme les voitures autonomes

L'open-sourcing de SAM 2 poursuit l'engagement de Meta à faire progresser l'IA grâce à une collaboration ouverte. Le modèle et le jeu de données sont disponibles sous des licences permissives, permettant une utilisation académique et commerciale.

En publiant SAM 2, Meta vise à donner les moyens à la communauté de l'IA de créer des applications innovantes et de faire de nouvelles découvertes en vision par ordinateur. Les capacités unifiées de segmentation d'images et de vidéos de SAM 2 ouvrent des possibilités passionnantes dans tous les secteurs, de la création de contenu à la recherche scientifique.

Dépôt GitHub