KI-Giganten im Wettstreit: Kann GPT-5 Sora übertreffen und die Branche neu gestalten?

Der boomende Trend von KI-Kurzfilmen offenbart die Entwicklungstendenzen von multimodalen großen Modellen. Dieses Phänomen spiegelt nicht nur das Anwendungspotenzial der künstlichen Intelligenz im kreativen Bereich wider, sondern zeigt auch die Fähigkeit multimodaler Modelle, verschiedene Informationsformen wie Text, Bild und Video zu integrieren. Mit dem kontinuierlichen technologischen Fortschritt gestalten multimodale große Modelle die Art und Weise, wie Inhalte erstellt und konsumiert werden, neu und bringen neue Chancen und Herausforderungen für die digitale Unterhaltungsindustrie mit sich.

Xiaomi-Vorsitzender und CEO Lei Jun äußerte sich kürzlich ebenfalls: "Kurzdramen scheinen eine neue Welt zu eröffnen, sie sind schneller, aufregender und ansprechender als Unterhaltungsliteratur."

Während Kurzdramen boomen, entdecken einige Schöpfer in diesem Prozess auch den Wert von KI. ### Die erste inländische AIGC-Original-Fantasy-Kurzdrama "Spiegel der Berge und Meere" wurde seit seiner Veröffentlichung am 13. Juli schnell auf großen Videoplattformen populär und hat auf Kuaishou bereits über 10 Millionen Aufrufe erreicht. Durch den geschickten Einsatz von KI-Technologie wurden die in "Shanhaijing" beschriebenen mythologischen Figuren und seltsamen Kreaturen von Text in lebendige Bilder auf der Leinwand verwandelt. Mit ihrer realistischen und flüssigen Ausdruckskraft hat sie erfolgreich die stereotypen Vorstellungen der Menschen von KI-Videoproduktionseffekten durchbrochen.

Darüber hinaus ### erzielte "Sanxingdui: Offenbarung der Zukunft", produziert vom AIGMS-Produktionszentrum von Bona Film, nach seiner Veröffentlichung bemerkenswerte Ergebnisse und Resonanz. Jiang Defu, CEO von Bona Film, erklärte, dass Bona den industriellen Filmprozess nutzte, um diese Kurzdrama mit KI zu produzieren. Ziel war es, die eigene reife Filmerfahrung zu nutzen, um den technischen Gehalt von KI-Kurzdramen zu verbessern und durch die KI-Kurzdrama-Schiene chinesische Geschichten gut zu erzählen.

Man kann sagen, dass der "Durchbruch" von KI-Kurzdramen alle Vorteile von "Zeit, Ort und Menschen" nutzt. Von Produktionswerkzeugen über Plattformen bis hin zum Publikum schafft eine perfekte Ökosystem-Kette einen fruchtbaren Boden für ihre Entwicklung.

Der Erfolg dieser Werke ist nicht nur ein technologischer Durchbruch, sondern auch ein Mikrokosmos der Anwendung multimodaler großer Modelle in der künstlerischen Schöpfung. Es zeigt nicht nur die Fähigkeit der KI zur visuellen und auditiven Verarbeitung, sondern realisiert auch durch Deep Learning und Verarbeitung natürlicher Sprache ein tiefes Verständnis und innovative Ausdrucksformen kultureller Elemente.

Erwartungen senken, womit rettet OpenAI

Inmitten dieser blühenden Landschaft erinnert man sich unweigerlich an den ehemaligen "Konzept-Gott" - Sora.

Als OpenAIs brandneues generatives Video-Großmodell löste es bei seiner Veröffentlichung tatsächlich beispiellose Aufregung aus. Als OpenAI im Februar offiziell den Schleier von Sora lüftete, waren das globale Internet und die sozialen Medien sofort von seinen mächtigen Funktionen fasziniert, als ob der glorreiche Moment der Veröffentlichung von GPT-3.5 wiederholt würde.

Sobald Sora veröffentlicht wurde, wurde es mit seinen drei Kernvorteilen schnell zum Fokus der Technologiewelt. Die Fähigkeit, überlange Videos von bis zu 60 Sekunden zu generieren und den 4-Sekunden-Kohärenz-Engpass früherer KI-Videogenerierungsmodelle zu durchbrechen, beeindruckte die Industrie und die Öffentlichkeit. Zweitens unterstützt Sora nicht nur Mehrwinkelaufnahmen, sondern kann auch flüssige One-Take-Aufnahmen realisieren. Die generierten Bilder können perfekt die Licht- und Schattenbeziehungen, physikalische Verdeckungen und Kollisionseffekte in der Szene darstellen, was den Videoinhalt lebendiger und realistischer macht.

Damals wurde Sora von OpenAI als "Weltsimulator" betrachtet, nicht nur als ein Videogenerierungsmodell, sondern als intelligentes Werkzeug, das die physikalischen Gesetze der realen Welt verstehen und simulieren kann.

In der Anfangsphase der Veröffentlichung waren die Menschen von der technologischen Innovation und Benutzerfreundlichkeit beeindruckt, die Sora brachte. Viele Fachleute prognostizierten, dass Sora eine Revolution in der Videoproduktion sein und die traditionelle Videoproduktionsweise grundlegend verändern würde.

Heute jedoch bereitet sich Sora noch auf den offiziellen Start vor, einschließlich gegnerischer Tests. Ein aus Experten verschiedener Bereiche bestehendes rotes Team hat strenge Tests durchgeführt, um potenzielle Risiken wie Fehlinformationen, hasserfüllte Inhalte und Vorurteile zu identifizieren und zu mindern.

Gleichzeitig erlaubt OpenAI visuellen Künstlern, Designern und Filmemachern frühzeitigen Zugang zu Sora, um Feedback zu sammeln und das Modell zu verbessern, insbesondere für die Bedürfnisse kreativer Fachleute. Um Transparenz und Sicherheit zu erhöhen, entwickelt OpenAI Werkzeuge zur Erkennung von irreführenden Inhalten, die von Sora generiert wurden, und plant, C2PA-Metadaten in das Modell aufzunehmen. Darüber hinaus arbeitet das Unternehmen mit globalen Politikern, Pädagogen und Künstlern zusammen, um ihre Bedenken zu verstehen und positive Anwendungsfälle für Sora zu identifizieren. Diese Aktivitäten haben zu einer verzögerten Veröffentlichung von Sora geführt.

Mit der Zeit hat sich die praktische Anwendung von Sora jedoch nicht so schnell entwickelt wie erwartet. Obwohl OpenAI technologisch große Durchbrüche erzielt hat, konnte es diese Technologie nicht in ein tatsächlich nutzbares Produkt umwandeln und auf den Markt bringen.

Für die breite Masse der Nutzer ist dieser Kontrast zweifellos enttäuschend und beunruhigend. Auf der einen Seite steht die "üppige Vorstellung", dass Sora schnell die Landschaft der Videoproduktion verändern, die Eintrittsbarrieren senken und mehr Menschen ermöglichen könnte, mühelos hochwertige Videoinhalte zu erstellen; auf der anderen Seite steht die "karge Realität" des langsamen Fortschritts bei der Umsetzung von Sora.

Soras Dilemma spiegelt nicht nur technische Verzögerungen oder Unzulänglichkeiten wider, sondern tiefgreifender die allgemeinen Herausforderungen, denen sich KI-Technologien bei der kommerziellen Umsetzung gegenübersehen. Von der Algorithmusoptimierung bis zur Datenverarbeitung, von der Kultivierung von Nutzergewohnheiten bis zur Verbesserung der Marktakzeptanz - jeder Schritt erfordert sorgfältige Verfeinerung und Zeit zum Reifen. In dieser schnelllebigen Ära führt die Diskrepanz zwischen dem Wunsch der Nutzer nach sofortiger Befriedigung und der Reifungskurve der KI-Technologie oft zu einer großen Kluft zwischen Erwartung und Realität.

Ein Reich zu erobern ist leicht, es zu beherrschen schwer, GPT-5 von der Technologieverehrung zur Vertrauenskrise

Abgesehen von dem sich in Klausur befindenden Sora hat die plötzliche Veröffentlichung von GPT-4o mini die öffentliche Meinung erneut angeheizt. Ein Internetnutzer scherzte: "GPT-3.5 wurde entlassen, ist GPT-5 noch weit entfernt? Altman: Ja!" Obwohl die Veröffentlichung von GPT-5 wie eine Fata Morgana erscheint, glauben die meisten Menschen immer noch an die technologische Stärke von OpenAI.

Der Wettbewerb und die Veränderungen im KI-Bereich werden jedoch ebenfalls zunehmend intensiv. Nicht nur treten immer mehr Unternehmen und Forschungseinrichtungen in die Forschung und Entwicklung sowie Anwendung von KI-Technologien ein, sondern es tauchen auch ständig zahlreiche vertikale KI-Produkte auf, die mit präziserer Positionierung und individuelleren Dienstleistungen die Gunst der Nutzer gewinnen.

Im Vergleich dazu scheint die Anziehungskraft von OpenAI in der Branche nachgelassen zu haben, und es wird immer schwieriger, seine "Dominanz" aufrechtzuerhalten.

Ähnlich wie nachdem OpenAI am 9. dieses Monats offiziell die Bereitstellung von API-Diensten für China und andere Regionen eingestellt hatte, dachte man zunächst, es sei ein neues technologisches Monopol, aber es kam anders als erwartet und löste in China keine große Aufregung aus.

Angesichts der "Lieferunterbrechung" von OpenAI war die Reaktion inländischer Unternehmen diesmal äußerst positiv. Sobald die Nachricht bekannt wurde, führten KI-Großmodell-Unternehmen wie Zhipu AI, Baidu, Alibaba und Tencent umgehend "Umzugspläne" für API-Dienste ein und begannen durch Preissenkungen und vereinfachte Prozesse, Kunden zu gewinnen, die zuvor OpenAI API-Dienste genutzt hatten.

Wir müssen nicht nach Antworten suchen, warum sie sich entschieden haben, den chinesischen Markt aufzugeben, aber die Leistung inländischer Großmodell-Anbieter beweist zur Genüge, dass ### angesichts des Marktumfelds und der Bedingungen für den Einsatz von Großmodellen inländische Großmodelle durchaus die erste Wahl für Nutzer sein können.

Im sogenannten "Jahr der Großmodelle" sprachen wir über Modellgröße und Modellfähigkeiten, aber der technologische Fortschritt hat in nur einem Jahr die Unternehmen dazu gebracht, darüber nachzudenken, wie man Technologie umsetzt und kommerzialisiert. Die jüngste Explosion von Produkten wie Kuaishou Keling und SenseTime Vimi ist ein Mikrokosmos der technologischen Umsetzung. Kontinuierliche Innovation ist zum Grundstein für das Überleben und die Entwicklung von Unternehmen geworden.

Die Großmodell-Familie glaubt, dass für OpenAI kontinuierliche Innovation bedeutet, ständig neue Bereiche der künstlichen Intelligenz zu erforschen, die Grenzen der Technologie voranzutreiben und Produkte zu schaffen, die wirklich reale Probleme lösen können. Die Einführung von GPT-5 sollte nicht nur ein einfaches Upgrade der vorherigen Generation sein, sondern ein qualitativer Sprung, um OpenAIs führende Position im Bereich der künstlichen Intelligenz aufrechtzuerhalten.

Nachwort: Kann Multimodalität eine neue Chance zur Überholung in der Kurve sein?

Der Boom von KI-Kurzdramen ist zweifellos ein bemerkenswertes Phänomen, aber es ist nur die Spitze des Eisbergs in der Entwicklung des inländischen multimodalen Bereichs. Dieses Phänomen ist weit mehr als eine isolierte Demonstration des technologischen Fortschritts, sondern eine umfassende Manifestation der tiefen Integration von technologischer Innovation und lokaler Kultur, präziser Erfassung der Marktnachfrage sowie koordinierter Entwicklung der gesamten Industriekette.

Wenn wir unseren Blick vom spezifischen Phänomen der KI-Kurzdramen entfernen, ist diese tiefe Integration von technologischer Innovation, lokaler Kultur, Marktnachfrage und industriellem Ökosystem genau der Schlüsselvorteil Chinas im Bereich der multimodalen künstlichen Intelligenz. Ob es sich um präzise Diagnosen im Gesundheitswesen, die intelligente Transformation der Bildungsbranche oder die schnelle Entwicklung intelligenter Fertigung und Industrie 4.0 handelt, multimodale künstliche Intelligenz schafft neue