Meta hat kürzlich SAM2, die zweite Generation ihres KI-Modells "Segment Anything", auf der SIGGRAPH vorgestellt. Im Vergleich zur vorherigen Version erweitert SAM2 seine Fähigkeiten von der Bildsegmentierung zur Videosegmentierung. Es kann Videos beliebiger Länge in Echtzeit verarbeiten und Objekte, die zuvor im Video nicht zu sehen waren, einfach segmentieren und verfolgen.
Entscheidend ist, dass der Code, die Gewichte und der Datensatz des Modells alle Open-Source sind. Wie die Llama-Serie folgt es der Apache 2.0-Lizenz und teilt den Evaluierungscode unter der BSD-3-Lizenz.
Meta gab an, dass der Open-Source-Datensatz 51.000 reale Videos und 600.000 räumlich-zeitliche Masken (Masklets) umfasst, was den Umfang früherer ähnlicher Datensätze bei weitem übertrifft. Eine Online-Demo steht auch allen zur Verfügung, um es auszuprobieren.
SAM2 baut auf SAM auf, indem es ein Speichermodul hinzufügt. Seine wichtigsten Verbesserungen umfassen:
- Echtzeit-Segmentierung von Videos beliebiger Länge
- Zero-Shot-Generalisierung
- Verbesserte Segmentierungs- und Tracking-Genauigkeit
- Lösung von Verdeckungsproblemen
Der interaktive Segmentierungsprozess besteht hauptsächlich aus zwei Schritten: Auswahl und Verfeinerung. Im ersten Frame wählen Benutzer das Zielobjekt durch Klicken aus. SAM2 propagiert dann automatisch die Segmentierung auf nachfolgende Frames und bildet eine räumlich-zeitliche Maske. Wenn SAM2 das Zielobjekt in bestimmten Frames verliert, können Benutzer es korrigieren, indem sie zusätzliche Prompts in einem neuen Frame bereitstellen.
SAM2's Kernidee ist es, Bilder als Einzelbild-Videos zu behandeln, was eine direkte Erweiterung von SAM auf den Videobereich ermöglicht und sowohl Bild- als auch Videoeingaben unterstützt. Der einzige Unterschied bei der Verarbeitung von Videos besteht darin, dass das Modell sich auf den Speicher verlassen muss, um verarbeitete Informationen für eine genaue Objektsegmentierung im aktuellen Zeitschritt abzurufen.
Um die Herausforderungen der Videosegmentierung anzugehen, konzentrierte sich Meta auf drei Hauptbereiche:
- Gestaltung einer promptbaren visuellen Segmentierungsaufgabe
- Entwicklung eines neuen Modells basierend auf SAM
- Aufbau des SA-V-Datensatzes
Das Team entwarf eine visuelle Segmentierungsaufgabe, die die Bildsegmentierung auf Videos verallgemeinert. SAM2 ist darauf trainiert, Prompts in jedem Frame eines Videos zu akzeptieren, um die zu prognostizierende räumlich-zeitliche Maske zu definieren. Es macht sofortige Maskenvorhersagen im aktuellen Frame basierend auf Eingabeprompts und führt eine zeitliche Ausbreitung durch, um Masken für das Zielobjekt über alle Frames hinweg zu generieren.
Durch die Einführung eines Streaming-Speichers kann das Modell Videos in Echtzeit verarbeiten und Zielobjekte genauer segmentieren und verfolgen. Die Speicherkomponente besteht aus einem Speicherencodierer, einer Speicherbank und einem Speicheraufmerksamkeitsmodul. Dieses Design ermöglicht es dem Modell, Videos beliebiger Länge zu verarbeiten, was für die Annotationssammlung im SA-V-Datensatz wichtig ist und potenzielle Auswirkungen in Bereichen wie der Robotik hat.
SAM2 gibt auch mehrere gültige Masken aus, wenn das segmentierte Objekt mehrdeutig ist. Zusätzlich enthält SAM2 zur Behandlung von Verdeckungen in Videos einen zusätzlichen "Verdeckungskopf", um vorherzusagen, ob ein Objekt im aktuellen Frame erscheint.
Der SA-V-Datensatz enthält 4,5-mal mehr Videos und 53-mal mehr Annotationen als der größte existierende ähnliche Datensatz. Um eine so große Datenmenge zu sammeln, baute das Forschungsteam eine Daten-Engine, die sowohl den Datensatz als auch das Modell iterativ verbessert.
Im Vergleich zu modernsten halbüberwachten Methoden schneidet SAM2 bei verschiedenen Metriken gut ab. Das Forschungsteam erkennt jedoch einige Einschränkungen an, wie zum Beispiel den möglichen Verlust der Verfolgung von Objekten in überfüllten Szenen oder bei erheblichen Kamerawinkeländerungen. Sie entwickelten einen Echtzeit-Interaktionsmodus, um manuelle Korrekturen für solche Fälle zu unterstützen.
Das Modell ist nicht nur zur kostenlosen Nutzung Open-Source, sondern wird auch auf Plattformen wie Amazon SageMaker gehostet.