Hier ist die deutsche Übersetzung des Textes:
Der sich ausbreitende Pulverdampf verdeckt eine Tatsache: Im Gegensatz zu vielen großen Unternehmen, die Geld verbrennen und Subventionen zahlen, ist DeepSeek profitabel.
Dahinter steckt, dass DeepSeek die Modellarchitektur umfassend innoviert hat. Es hat eine völlig neue MLA-Architektur (### ein neuer Multi-Head Latent Attention-Mechanismus) vorgeschlagen, die den Speicherbedarf auf 5-13% der bisher am häufigsten verwendeten MHA-Architektur reduziert. Gleichzeitig hat die selbst entwickelte DeepSeekMoESparse-Struktur den Rechenaufwand auf ein Minimum reduziert. All dies hat letztendlich zu einer Kostensenkung geführt.
Im Silicon Valley wird DeepSeek als "mysteriöse Kraft aus dem Osten" bezeichnet. Der leitende Analyst von SemiAnalysis glaubt, dass das DeepSeek V2-Paper "möglicherweise das beste des Jahres" ist. Der ehemalige OpenAI-Mitarbeiter Andrew Carr hält das Paper für "voller erstaunlicher Weisheit" und wendet dessen Trainingseinstellungen auf sein eigenes Modell an. Jack Clark, ehemaliger Leiter der Politikabteilung bei OpenAI und Mitbegründer von Anthropic, glaubt, dass DeepSeek "eine Gruppe von unergründlichen Genies eingestellt hat" und dass in China hergestellte große Modelle "wie Drohnen und Elektroautos zu einer Kraft werden, die man nicht ignorieren kann."
In der KI-Welle, die hauptsächlich vom Silicon Valley vorangetrieben wird, ist dies eine seltene Situation. Mehrere Brancheninsider sagten uns, ### dass diese starke Resonanz auf Innovationen auf Architekturebene zurückzuführen ist - ein seltener Versuch für chinesische Großmodellunternehmen und sogar für globale Open-Source-Basismodelle. Ein KI-Forscher sagte, dass die Attention-Architektur seit Jahren kaum erfolgreich verändert wurde, geschweige denn in großem Maßstab validiert. "Das ist sogar ein Gedanke, der bei Entscheidungen abgewürgt würde, weil den meisten Menschen das Selbstvertrauen fehlt."
Andererseits haben sich chinesische Großmodelle zuvor selten mit Innovationen auf Architekturebene befasst, auch weil nur wenige Menschen aktiv versucht haben, ein solches Vorurteil zu durchbrechen: ### Die USA sind besser in technologischen Innovationen von 0 auf 1, während China besser in Anwendungsinnovationen von 1 auf 10 ist. Zumal ein solches Verhalten sehr unrentabel ist - eine neue Generation von Modellen wird in ein paar Monaten natürlich von jemandem entwickelt, chinesische Unternehmen müssen nur folgen und gute Anwendungen machen. Die Innovation der Modellstruktur bedeutet, dass es keinen Weg zum Folgen gibt und viele Misserfolge durchgemacht werden müssen, was sowohl zeitlich als auch wirtschaftlich sehr kostspielig ist.
DeepSeek ist offensichtlich ein Gegenläufer. Inmitten des Lärms, dass die Großmodelltechnologie zwangsläufig konvergieren wird und das Folgen ein klügerer Abkürzungsweg ist, schätzt DeepSeek den in "Umwegen" angesammelten Wert und glaubt, dass chinesische Großmodell-Unternehmer neben Anwendungsinnovationen auch zum globalen Strom technologischer Innovationen beitragen können.
Viele von DeepSeeks Entscheidungen sind anders als die anderer. Bis jetzt ist es unter den 7 chinesischen Großmodell-Startups das einzige Unternehmen, das den "sowohl-als-auch"-Ansatz aufgegeben hat und sich bis heute auf Forschung und Technologie konzentriert, ohne ToC-Anwendungen zu entwickeln. Es ist auch das einzige Unternehmen, das die Kommerzialisierung nicht umfassend in Betracht gezogen hat, sich entschieden für den Open-Source-Weg entschieden hat und sogar noch nie Kapital aufgenommen hat. Dies führt dazu, dass es oft außerhalb des Spielfelds vergessen wird, aber auf der anderen Seite wird es in der Community oft von Nutzern "viral" verbreitet.
Wie genau ist DeepSeek entstanden? Wir haben dafür den selten in der Öffentlichkeit auftretenden DeepSeek-Gründer Liang Wenfeng interviewt.
Dieser Gründer in den 80ern, der seit der Phantomera im Hintergrund intensiv an der Technologie geforscht hat, setzt in der DeepSeek-Ära seinen zurückhaltenden Stil fort und verbringt wie alle Forscher jeden Tag damit, "Papers zu lesen, Code zu schreiben und an Gruppendiskussionen teilzunehmen".
Im Gegensatz zu vielen Gründern quantitativer Fonds, die Erfahrungen bei ausländischen Hedgefonds haben und oft aus Physik, Mathematik und anderen Fachrichtungen kommen, hat Liang Wenfeng immer einen inländischen Hintergrund gehabt und studierte früh an der Zhejiang University in der Fachrichtung Künstliche Intelligenz der Fakultät für Elektrotechnik.
Mehrere Brancheninsider und DeepSeek-Forscher sagten uns, dass Liang Wenfeng in der heutigen chinesischen KI-Szene sehr selten ist, da er "sowohl starke Infrastruktur-Engineering-Fähigkeiten als auch Modellforschungsfähigkeiten besitzt und Ressourcen mobilisieren kann", "sowohl präzise Urteile von oben fällen als auch in Details besser sein kann als Forscher an vorderster Front". Er besitzt "erschreckende Lernfähigkeiten" und ist gleichzeitig "überhaupt nicht wie ein Chef, sondern eher wie ein Geek".
Dies ist ein besonders seltenes Interview. In dem Interview bietet dieser technologische Idealist eine Stimme, die in der chinesischen Technologieszene derzeit besonders selten ist: ### Er ist einer der wenigen, die die "Richtig-Falsch-Perspektive" vor die "Nutzen-Schaden-Perspektive" stellen und uns daran erinnern, die Trägheit der Zeit zu sehen und "originelle Innovation" auf die Tagesordnung zu setzen.
Vor einem Jahr, als DeepSeek gerade auf den Plan trat, führten wir unser erstes Interview mit Liang Wenfeng: 《Der verrückte Phantom: Der Weg eines unsichtbaren KI-Giganten zum Großmodell》. Wenn der Satz ### "Man muss unbedingt verrückt ehrgeizig sein und gleichzeitig verrückt aufrichtig" damals noch ein schöner Slogan war, ist er ein Jahr später bereits zu einer Handlung geworden.
Hier folgt der Gesprächsteil:
### Wie wurde der erste Schuss im Preiskrieg abgefeuert?
"Dunkle Strömung": Nach der Veröffentlichung des DeepSeek V2-Modells entfachte sich schnell ein blutiger Preiskrieg für große Modelle. Manche sagen, ihr seid der Wels in der Branche.
Liang Wenfeng: Wir hatten nicht die Absicht, ein Wels zu werden, wir sind nur versehentlich zu einem geworden.
"Dunkle Strömung": Hat euch dieses Ergebnis überrascht?
Liang Wenfeng: Sehr überrascht. Wir hätten nicht gedacht, dass der Preis für alle so sensibel ist. Wir haben einfach nach unserem eigenen Tempo gearbeitet und dann die Kosten kalkuliert und den Preis festgelegt. Unser Prinzip ist, kein Geld draufzulegen, aber auch keine übermäßigen Gewinne zu erzielen. Dieser Preis liegt auch etwas über den Kosten mit einem kleinen Gewinn.
"Dunkle Strömung": Fünf Tage später folgte Zhipu AI, dann kamen ByteDance, Alibaba, Baidu, Tencent und andere große Unternehmen.
Liang Wenfeng: Zhipu AI senkte den Preis für ein Einstiegsprodukt, ihr Modell auf unserem Niveau ist immer noch sehr teuer. ByteDance war wirklich der erste, der nachzog. Sie senkten den Preis ihres Flaggschiffmodells auf unser Niveau, was dann andere große Unternehmen dazu veranlasste, ebenfalls die Preise zu senken. Da die Modellkosten der großen Unternehmen viel höher sind als unsere, hätten wir nicht gedacht, dass jemand Geld verlieren würde, um dies zu tun. Am Ende wurde es zur Logik des Geldverbrennens und Subventionierens wie in der Internetära.
"Dunkle Strömung": Von außen betrachtet sieht die Preissenkung sehr nach einem Kampf um Nutzer aus, wie es in Preiskriegen der Internetära üblich war.
Liang Wenfeng: Der Kampf um Nutzer ist nicht unser Hauptziel. Wir haben die Preise einerseits gesenkt, weil wir bei der Erforschung der Struktur der nächsten Modellgeneration die Kosten zuerst senken konnten, andererseits glauben wir auch, dass sowohl APIs als auch KI inklusiv und für jeden erschwinglich sein sollten.
"Dunkle Strömung": Davor würden die meisten chinesischen Unternehmen direkt die Llama-Struktur dieser Generation kopieren, um Anwendungen zu entwickeln. Warum seid ihr von der Modellstruktur ausgegangen?
Liang Wenfeng: Wenn das Ziel darin besteht, Anwendungen zu entwickeln, ist es eine vernünftige Wahl, die Llama-Struktur zu übernehmen und schnell Produkte auf den Markt zu bringen. Aber unser Ziel ist AGI, was bedeutet, dass wir neue Modellstrukturen erforschen müssen, um mit begrenzten Ressourcen stärkere Modellfähigkeiten zu erreichen. Dies ist eine der Grundlagenforschungen, die für die Skalierung auf größere Modelle erforderlich sind. Neben der Modellstruktur haben wir auch viele andere Forschungen durchgeführt, einschließlich der Frage, wie man Daten konstruiert und wie man Modelle menschenähnlicher macht. All dies spiegelt sich in unseren veröffentlichten Modellen wider. Außerdem hat die Llama-Struktur in Bezug auf Trainingseffizienz und Inferenzkosten wahrscheinlich schon zwei Generationen Rückstand auf das fortschrittlichste Niveau im Ausland.
"Dunkle Strömung": Woher kommt dieser Generationsunterschied hauptsächlich?
Liang Wenfeng: Zunächst gibt es einen Unterschied in der Trainingseffizienz. Wir schätzen, dass das beste inländische Niveau im Vergleich zum besten ausländischen in Bezug auf Modellstruktur und Trainingsdynamik möglicherweise einen Faktor von zwei Unterschied hat. Allein dieser Punkt bedeutet, dass wir doppelt so viel Rechenleistung verbrauchen müssen, um den gleichen Effekt zu erzielen. Außerdem gibt es möglicherweise auch einen Faktor von zwei Unterschied in der Dateneffizienz, was bedeutet, dass wir doppelt so viele Trainingsdaten und Rechenleistung verbrauchen müssen, um den gleichen Effekt zu erzielen. Zusammengenommen müssen wir viermal so viel Rechenleistung verbrauchen. Was wir tun müssen, ist, diese Unterschiede ständig zu verringern.
"Dunkle Strömung": Die meisten chinesischen Unternehmen entscheiden sich dafür, sowohl Modelle als auch Anwendungen zu entwickeln. Warum hat sich DeepSeek derzeit dafür entschieden, nur Forschung und Exploration zu betreiben?
Liang Wenfeng: Weil wir glauben, dass es jetzt am wichtigsten ist, an der globalen Innovationswelle teilzunehmen. Viele Jahre lang waren chinesische Unternehmen daran gewöhnt, dass andere technologische Innovationen machen und wir sie übernehmen und Anwendungen monetarisieren, aber das ist nicht selbstverständlich. In dieser Welle ist unser Ausgangspunkt nicht, schnell Geld zu verdienen, sondern an die Spitze der Technologie zu gelangen und die Entwicklung des gesamten Ökosystems voranzutreiben.
"Dunkle Strömung": Die Trägheit der Wahrnehmung, die die Internet- und Mobile-Internet-Ära den meisten Menschen hinterlassen hat, ist, dass die USA gut in technologischer Innovation sind, während China besser in der Anwendung ist.
Liang Wenfeng: Wir glauben, dass China mit der wirtschaftlichen Entwicklung ### auch schrittweise zum Beitragenden werden muss, anstatt immer nur mitzufahren. In den letzten dreißig Jahren der IT-Welle haben wir im Grunde nicht an echten technologischen Innovationen teilgenommen. ### Wir haben uns daran gewöhnt, dass das Mooresche Gesetz vom Himmel fällt und wir zu Hause sitzen und alle 18 Monate bessere Hardware und Software erscheinen. Das Scaling Law wird auch so behandelt.
Tatsächlich wurde dies jedoch von der westlich dominierten technologischen Gemeinschaft Generation für Generation unermüdlich geschaffen. Nur weil wir zuvor nicht an diesem Prozess beteiligt waren, haben wir seine Existenz ignoriert.