Meta hat erneut ein bahnbrechendes Modell als Open Source veröffentlicht - Segment Anything Model 2 (SAM 2). Aufbauend auf dem Erfolg des ursprünglichen SAM bringt SAM 2 die Segmentierungsfähigkeiten auf die nächste Stufe, indem es die Echtzeit-Segmentierung sowohl von Bildern als auch von Videos ermöglicht.
Hauptmerkmale von SAM 2:
- Erstes einheitliches Modell für Echtzeit-Objektsegmentierung in Bildern und Videos
- Verbesserte Genauigkeit und Leistung im Vergleich zu bestehenden Methoden
- Hervorragende Zero-Shot-Generalisierungsfähigkeit zur Segmentierung beliebiger Objekte in beliebigen Videos
- Interaktionszeit auf ein Drittel früherer Modelle reduziert
SAM 2 kann eine breite Palette von Objekten in Videos genau segmentieren, darunter:
- Bewegte Objekte wie Fußbälle und Spielkarten
- Verformbare Objekte wie gekneteter Teig
- Bunte schwimmende Fische
- Mikroskopische Zellen
Zusammen mit dem Modell veröffentlichte Meta auch den SA-V-Datensatz:
- Enthält ~51.000 reale Videos
- Über 600.000 räumlich-zeitliche Masken (Masklets)
- 4,5-mal größer als bestehende Video-Segmentierungsdatensätze
- 53-mal mehr Annotationen
Dieser Datensatz wird die Annotation visueller Daten erheblich beschleunigen und beim Aufbau besserer Computer-Vision-Systeme helfen.
Mögliche Anwendungen von SAM 2 sind:
- Kreative Videoeffekte in Kombination mit generativen Videomodellen
- Verfolgung von Objekten in Drohnenaufnahmen gefährdeter Tiere
- Lokalisierung von Bereichen in laparoskopischen Kameraaufnahmen während medizinischer Eingriffe
- Echtzeit-Videobearbeitung und Live-Streaming-Effekte
- Annotationswerkzeug für Trainingsdaten in Computer-Vision-Systemen wie selbstfahrenden Autos
Die Open-Source-Veröffentlichung von SAM 2 setzt Metas Engagement für die Förderung von KI durch offene Zusammenarbeit fort. Das Modell und der Datensatz sind unter permissiven Lizenzen verfügbar, die sowohl akademische als auch kommerzielle Nutzung erlauben.
Mit der Veröffentlichung von SAM 2 möchte Meta die KI-Community in die Lage versetzen, innovative Anwendungen zu entwickeln und neue Entdeckungen im Bereich Computer Vision zu machen. Die einheitlichen Bild- und Videosegmentierungsfähigkeiten von SAM 2 eröffnen spannende Möglichkeiten in verschiedenen Branchen, von der Content-Erstellung bis zur wissenschaftlichen Forschung.