8 inländische und ausländische KI-Unternehmen haben nacheinander neue Produkte oder Modelle eingeführt, die routinemäßig ### über 10 Sekunden lange Videos generieren und öffentlich verfügbar sind. Einige behaupten sogar, dass sie bereits ### 2-minütige Supervideos generieren können. Die KI-Videogenerierungsbranche erlebt einen hitzigen 2.0-Kampf.
Auf der einen Seite hat ### ByteDance mit der Einführung des KI-Videogenerierungsprodukts "Jimeng" die Videolänge von den üblichen 3-4 Sekunden auf 12 Sekunden erhöht. Das lange Zeit ruhige ### Kuaishou hat plötzlich das Keling-Großmodell veröffentlicht, dessen beeindruckende Effekte im ganzen Netz diskutiert wurden und zeitweise fast 1 Million Menschen in der Warteschlange standen.
Auf der anderen Seite hat das Startup ### Luma AI "3D aufgegeben und sich dem Video zugewandt" und mit Dream Machine einen großen Einstieg gefeiert. Der alte Spieler ### Runway gibt sich ebenfalls nicht geschlagen und hat mit dem neuen Gen-3 Modell die physikalischen Simulationsfähigkeiten auf ein neues Niveau gehoben.
Auch auf dem Finanzierungsschlachtfeld tobt der Kampf. Im Inland haben ### Aishi Technology und Shengsu Technology seit März jeweils Milliarden-Finanzierungen erhalten. Im Ausland hat ### Pika im Juni 80 Millionen US-Dollar Finanzierung erhalten und seine Bewertung auf 500 Millionen US-Dollar verdoppelt, während ### Runway Berichten zufolge eine Finanzierung von bis zu 450 Millionen US-Dollar vorbereitet.
Sora wirkte wie eine Bombe auf die KI-Videogenerierungsbranche. Wie haben sich die in- und ausländischen KI-Videogenerierungsprodukte nach 5 Monaten intensiver Aufholjagd entwickelt? Können sie mit Sora mithalten? Und welchen Herausforderungen werden sie gegenüberstehen? Durch horizontale Tests verfügbarer Produkte sowie Diskussionen mit Branchenexperten und Kreativen hat Zhidongxi diese Fragen eingehend analysiert.
In den Tests konnte ich deutlich spüren, dass die Videogenerierung schneller wurde und "Unfälle" stark reduziert wurden. Die Entwicklung ging von einfachen "PowerPoint-artigen" Übergängen zu Bewegungen mit Winkeln und Aktionsänderungen. Insgesamt waren unter den kostenlosen verfügbaren Produkten Jimeng und Keling in Bezug auf Länge, Stabilität und physikalische Simulation führend.
In Bezug auf Finanzierungen sind sowohl die Häufigkeit als auch die Beträge für KI-Videogenerierung im Vergleich zur Zeit vor Soras Veröffentlichung stark gestiegen. In 5 Monaten wurden über 4,4 Milliarden eingesammelt, was auch andere Produkte im "vor- und nachgelagerten" Videoerstellungsprozess wie KI-Schnitt und KI-Beleuchtung für Investoren attraktiv machte. Außerdem sind mehrere neue Akteure in den Markt eingetreten, von denen einige bereits Millionenfinanzierungen erhalten haben, ohne bisher Produkte oder Technologien veröffentlicht zu haben.
I. Technologischer Wettkampf: Länge, Auflösung und physikalische Simulation
Am 16. Februar veröffentlichte OpenAI Sora und revolutionierte über Nacht die KI-Videogenerierungsbranche. Fünf Monate später ist Sora jedoch immer noch ein Zukunftsprodukt, und es scheint noch in weiter Ferne zu liegen, wann es für die breite Öffentlichkeit verfügbar sein wird.
In dieser Zeit haben große Unternehmen und Startups im In- und Ausland neue Produkte oder Modell-Upgrades veröffentlicht, von denen die meisten bereits für alle Nutzer zugänglich sind. Darunter sind einige beeindruckende Produkte, die die Landschaft der KI-Videogenerierung erneut verändert haben. Schließlich, wie gut Sora auch sein mag, welchen Wert hat es, wenn man es nicht nutzen kann?
Nach unvollständigen Statistiken von Zhidongxi haben seit der Veröffentlichung von Sora mindestens ### 8 Unternehmen im In- und Ausland neue Produkte oder Modelle veröffentlicht, von denen alle ### öffentlich verfügbar sind, mit Ausnahme von Vidu von Shengsu Technology.
Am 21. Februar startete ### Stability AI offiziell die Webversion des KI-Videogenerierungsprodukts Stable Video und öffnete es für alle Nutzer. Obwohl das zugrunde liegende Modell Stable Video Diffusion bereits im November letzten Jahres als Open Source veröffentlicht wurde, gab es als Modell immer noch gewisse Einsatz- und Nutzungshürden. Die Veröffentlichung als Webversion ermöglicht es nun mehr Nutzern, es einfach und bequem zu nutzen.
Am 27. April veröffentlichte ### Shengsu Technology in Zusammenarbeit mit der Tsinghua Universität das Vidu-Großmodell für lange, hochkonsistente und hochdynamische Videos. Es soll in der Lage sein, bis zu 16 Sekunden lange Videos mit einer Auflösung von 1080P zu generieren und die reale physikalische Welt nachzuahmen.
Nach den veröffentlichten Demos zu urteilen, hat Vidu tatsächlich sehr gute Ergebnisse in Bezug auf Klarheit, Bewegungsumfang und physikalische Simulation erzielt. Leider ist Vidu wie Sora noch nicht öffentlich zugänglich. Zhidongxi erfuhr von Shengsu Technology, dass das Produkt in naher Zukunft in den internen Test gehen wird.
Am 9. Mai benannte ### ByteDance seine KI-Kreativplattform Dreamina unter Jianyue in "Jimeng" um und führte KI-Bildgenerierungs- und KI-Videogenerierungsfunktionen ein, die die Erstellung von bis zu 12 Sekunden langen Videos unterstützen.
Am 6. Juni veröffentlichte ### Kuaishou das KI-Video-Großmodell Keling und startete die Kuaiying App, bei der Nutzer nur einen Fragebogen ausfüllen müssen, um die Nutzung zu beantragen. Das Keling-Großmodell zeichnet sich durch eine starke Simulation der Eigenschaften der physischen Welt aus, wie zum Beispiel das für viele KIs schwierige Problem des "Nudelns", das in den bereitgestellten Videobeispielen demonstriert wird.
Derzeit unterstützt Keling die Generierung von Videos mit festen Längen von 5 und 10 Sekunden. Laut der offiziellen Website kann das Modell Videos mit einer Länge von bis zu 2 Minuten, einer Framerate von 30 fps und einer Auflösung von 1080P generieren. In Zukunft sollen Funktionen wie Videofortsetzung hinzugefügt werden.
Am 13. Juni kündigte ### Luma AI, das sich zuvor hauptsächlich auf KI-generiertes 3D konzentrierte, die Einführung des Videogenerierungstools Dream Machine an. Es unterstützt die Generierung von 5 Sekunden langen Videos aus Text und Bildern und bietet auch eine Videoverlängerungsfunktion, die bereits generierte Videos um jeweils 5 Sekunden verlängern kann.
Am 17. Juni veröffentlichte ### Runway die Alpha-Version seines neuen Modells Gen-3 und öffnete es am 2. Juli für alle Nutzer gegen Bezahlung, wobei das Abonnement mindestens 15 US-Dollar pro Monat kostet. Gen-3 unterstützt derzeit die Generierung von 5 und 10 Sekunden langen Videos basierend auf Text. Bild-zu-Video-Generierung und andere Steuerungstools sind noch nicht verfügbar.
Am 6. Juli stellte ### HiDream (Zhixiang Zukunft) auf der WAIC das Zhixiang-Großmodell 2.0 vor, das drei Videogenerierungslängen von 5, 10 und 15 Sekunden bietet und Fähigkeiten wie Texteinfügung, Drehbuch-Multiszenen-Videogenerierung und IP-Konsistenz hinzufügt.
Am 17. Juli kündigte ### Haiper AI, ein britisches KI-Startup, das sich zuvor auf KI-3D-Rekonstruktion konzentrierte, ein Upgrade seines KI-Videogenerierungsprodukts Haiper auf Version 1.5 an. Die Länge wurde auf 8 Sekunden erhöht und es wurden Funktionen wie Videoverlängerung und Qualitätsverbesserung hinzugefügt.
Aus Sicht der Parameter haben diese KI-Videogenerierungsprodukte zunächst deutliche Fortschritte bei der Generierungslänge gemacht. Die Basislänge wurde von den vorherigen 2-4 Sekunden auf 5 Sekunden verlängert, und mehr als die Hälfte unterstützt Längen von über 10 Sekunden. Einige Produkte bieten auch Verlängerungsfunktionen. Unter den derzeit kostenlos verfügbaren Produkten erzeugt Jimeng mit 12 Sekunden die längsten Videos.
In Bezug auf visuelle Effekte gab es erhebliche Verbesserungen bei Auflösung und Framerate. Es gibt mehr Produkte, die 720P und höher unterstützen, und die Framerate nähert sich 24/30 fps an. Zuvor hatten die meisten Produkte eine Videoauflösung von etwa 1024*576 und eine Framerate von 8-12 fps.
II. Produktwettbewerb: Praxistest von 6 kostenlosen "Sofortprodukten", "Douyin und Kuaishou" führen
Als Sora gerade veröffentlicht wurde, testete Zhidongxi 8 in China verfügbare KI-Videogenerierungstools eingehend. Damals waren die Unterschiede noch recht deutlich, mit vielen "Unfällen". (Erster umfassender Vergleich der "chinesischen Version von Sora"! 15 Unternehmen im Wettbewerb, ByteDance führt)
Wie haben sich diese Akteure nach mehreren Monaten der Iteration und Verbesserung entwickelt? Zhidongxi hat die neu veröffentlichten oder aktualisierten KI-Videogenerierungsprodukte getestet. Um fair zu sein, wurden nur die kostenlosen Funktionen getestet und jeweils das erste generierte Video ausgewählt.
Es ist zu beachten, dass die Videogenerierung selbst ein Element des "Glücks" wie beim Kartenziehen beinhaltet und auch stark von der Formulierung der Prompts abhängt. Daher repräsentieren wenige Beispiele nicht vollständig die Fähigkeiten des Modells.
Für den ersten Test wählte ich eine ### Stilllebenszene mit dem Prompt: ### Nahaufnahme von Tulpen, die im warmen Licht der Abendsonne baden.
Stable Video zeigte bei diesem Prompt eine hohe Stabilität, zusammen mit guter Bildschärfe und Farbvielfalt. Die Bewegung konzentrierte sich hauptsächlich auf die Kamerabewegung.