DeepSeekを探る:より純粋な中国のテクノロジー理想主義の伝説 | 36Kr独占レポート

積極的な貢献者になり、ただ座って利益を享受する傍観者にならないでください。

以下は日本語に翻訳した内容です:

広がる硝煙は実際、ある事実を覆い隠していた:多くの大手企業が資金を投入して補助金を出すのとは異なり、DeepSeekは利益を上げている。

これの背景には、DeepSeekがモデルアーキテクチャに対して全方位的なイノベーションを行ったことがある。同社が提案した新しいMLA(### 新しいマルチヘッド潜在的注意メカニズム)アーキテクチャは、これまで最も一般的に使用されていたMHAアーキテクチャの5%-13%にメモリ使用量を削減した。同時に、独自のDeepSeekMoESparse構造も計算量を極限まで削減し、これらすべてが最終的にコスト削減につながった。

シリコンバレーでは、DeepSeekは「東洋からの神秘的な力」と呼ばれている。SemiAnalysisの主任アナリストは、DeepSeek V2の論文が「今年最高の論文の1つかもしれない」と考えている。OpenAIの元従業員Andrew Carrは論文が「驚くべき知恵に満ちている」と考え、その訓練設定を自身のモデルに適用した。OpenAIの元ポリシー責任者でAnthropicの共同創業者であるJack Clarkは、DeepSeekが「深遠で不可解な天才たちを雇用した」と考え、中国製の大規模モデルが「ドローンや電気自動車と同様に、無視できない力になる」と考えている。

シリコンバレーが主に物語の進展を牽引するAIの波の中で、これは稀有な状況である。業界の複数の関係者が我々に語ったところによると、### この強い反響はアーキテクチャレベルのイノベーションに由来しており、中国の大規模モデル企業や世界中のオープンソース基盤大規模モデルでも非常に稀な試みである。あるAI研究者は、Attentionアーキテクチャが提案されて以来長年、ほとんど成功裏に改良されたことがなく、大規模な検証はなおさらだと述べた。「これは意思決定時に切り捨てられるような考えでさえあります。ほとんどの人が自信を欠いているからです。」

一方で、中国製の大規模モデルがこれまでアーキテクチャレベルのイノベーションにほとんど踏み込んでこなかったのは、次のような固定観念を積極的に打ち破ろうとする人がほとんどいなかったからでもある:### アメリカは0から1の技術イノベーションが得意で、中国は1から10のアプリケーションイノベーションが得意だという考え方。しかも、このような行動は非常に割に合わない - 新世代のモデルは数ヶ月後には自然と誰かが作り出すので、中国企業はただ追随し、アプリケーションをうまく作ればよい。モデル構造にイノベーションを起こすということは、依拠すべき道筋がなく、多くの失敗を経験しなければならず、時間的にも経済的にも莫大なコストがかかることを意味する。

DeepSeekは明らかに逆行者である。大規模モデル技術は必然的に収束し、追随が賢明な近道だという喧騒の中で、DeepSeekは「回り道」で蓄積される価値を重視し、中国の大規模モデル起業家がアプリケーションイノベーションだけでなく、グローバルな技術イノベーションの潮流にも加わることができると考えている。

DeepSeekの多くの選択は他とは異なる。現時点で、中国の7つの大規模モデル起業企業の中で、「あれもこれも」路線を放棄し、今日まで研究と技術に専念し、対消費者アプリケーションを作っていない唯一の企業であり、商業化を全面的に考慮せず、オープンソース路線を固く選択し、資金調達さえしていない唯一の企業である。これらのことから、DeepSeekはしばしばテーブルの外に忘れ去られているが、一方で、コミュニティではユーザーによる「自発的な」宣伝が頻繁に行われている。

DeepSeekはどのようにして形成されたのか?我々はそのために、めったに表に出ないDeepSeekの創業者、梁文鋒氏にインタビューを行った。

幻方時代から、舞台裏で技術研究に没頭してきたこの80年代生まれの創業者は、DeepSeek時代になっても、その控えめな姿勢を続け、すべての研究員と同様に、毎日「論文を読み、コードを書き、グループディスカッションに参加する」生活を送っている。

多くの定量的ファンドの創業者が海外のヘッジファンドでの経歴を持ち、物理学や数学などの専攻出身が多いのとは異なり、梁文鋒氏は一貫して国内の背景を持ち、早くから浙江大学電子工程学部の人工知能方向で学んでいた。

業界の複数の関係者とDeepSeekの研究員が我々に語ったところによると、梁文鋒氏は現在の中国のAI界で非常に稀な「強力なインフラエンジニアリング能力とモデル研究能力を兼ね備え、さらにリソースを動員できる」、「高所から精確な判断を下すことができ、かつ細部においても第一線の研究員を上回る」人物であり、「恐ろしいほどの学習能力」を持ち、同時に「まったく経営者らしくなく、むしろ極度のギークのよう」だという。

これは特に貴重なインタビューだった。インタビューの中で、この技術的理想主義者は、現在の中国の科学技術界で特に希少な声を提供してくれた:### 彼は「利害観」よりも「是非観」を優先し、時代の慣性に目を向け、「独創的イノベーション」を議題に上げるよう促す数少ない人物の一人である。

1年前、DeepSeekが参入したばかりの頃、我々は初めて梁文鋒氏にインタビューを行った:『狂気の幻方:隠れたAI巨人の大規模モデルへの道』。当時の### 「必ず狂気のように大志を抱き、さらに狂気のように誠実でなければならない」というフレーズがまだ美しいスローガンだったとすれば、1年が経過し、それはすでに行動になりつつある。

以下は対話部分です:

### 価格戦争の第一弾はどのように始まったのか?

「暗流」:DeepSeek V2モデルの発表後、急速に血みどろの大規模モデル価格戦争が引き起こされ、あなたたちは業界のナマズだと言う人もいます。

梁文鋒:我々は意図的にナマズになろうとしたわけではありません。ただ偶然ナマズになってしまっただけです。

「暗流」:この結果は予想外でしたか?

梁文鋒:非常に予想外でした。価格が皆さんをこれほど敏感にするとは思いませんでした。我々は自分たちのペースで物事を進め、コストを計算して価格を決めただけです。我々の原則は赤字を出さず、暴利も得ないということです。この価格もコストの上にわずかな利益を乗せたものです。

「暗流」:5日後に智谱AIが追随し、その後バイトダンス、アリババ、バイドゥ、テンセントなどの大手企業が続きました。

梁文鋒:智谱AIが値下げしたのはエントリーレベルの製品で、我々と同レベルのモデルはまだ高額な料金を取っています。バイトダンスが本当の意味で最初に追随しました。フラッグシップモデルを我々と同じ価格まで下げ、それが他の大手企業の相次ぐ値下げを引き起こしました。大手企業のモデルコストは我々よりもはるかに高いので、誰かが赤字覚悟でこれをやるとは思いませんでした。結局、インターネット時代の資金を燃やして補助金を出すという論理になってしまいました。

「暗流」:外部から見ると、値下げはユーザーの奪い合いのように見えます。インターネット時代の価格戦争は通常そうです。

梁文鋒:ユーザーの奪い合いは我々の主な目的ではありません。我々が値下げしたのは、一つには次世代モデルの構造を探索する中でコストが先に下がったからであり、もう一つはAPIにせよAIにせよ、誰もが手の届く普遍的なものであるべきだと考えたからです。

「暗流」:それ以前は、中国の大多数の企業が直接この世代のLlama構造をコピーしてアプリケーションを作っていましたが、なぜあなたたちはモデル構造から切り込んだのですか?

梁文鋒:目標がアプリケーションを作ることなら、Llama構造を踏襲して短期間で製品を出すのも合理的な選択です。しかし我々の目的地はAGIであり、これは新しいモデル構造を研究し、限られたリソースの中でより強力なモデル能力を実現する必要があることを意味します。これはより大規模なモデルにスケールアップするために必要な基礎研究の一つです。モデル構造以外にも、データの構築方法やモデルをより人間らしくする方法など、多くの研究を行いました。これらはすべて我々がリリースしたモデルに反映されています。また、Llamaの構造は、訓練効率と推論コストの面で、海外の先進レベルとは恐らくすでに2世代の差があります。

「暗流」:この世代差は主にどこから来ているのですか?

梁文鋒:まず訓練効率に差があります。我々の推定では、国内の最高水準と海外の最高水準を比較すると、モデル構造と訓練ダイナミクスにおいて2倍の差がある可能性があり、この点だけでも同じ効果を得るために2倍の計算力を消費しなければなりません。さらにデータ効率にも2倍の差がある可能性があり、つまり同じ効果を得るために2倍の訓練データと計算力を消費しなければなりません。合わせると4倍の計算力を消費することになります。我々がやろうとしているのは、まさにこれらの差を絶えず縮めていくことです。

「暗流」:中国の大多数の企業がモデルとアプリケーションの両方を選択していますが、なぜDeepSeekは現在、研究探索のみを選択しているのですか?

梁文鋒:なぜなら我々は、今最も重要なのはグローバルなイノベーションの波に参加することだと考えているからです。過去長年にわたり、中国企業は他者が技術イノベーションを行い、我々がそれを取り入れてアプリケーションで収益化するという習慣がありましたが、これは当然のことではありません。この波の中で、我々の出発点は、この機会に一儲けすることではなく、技術の最前線に立ち、エコシステム全体の発展を推進することです。

「暗流」:インターネットとモバイルインターネット時代は、大多数の人々に、アメリカは技術イノベーションが得意で、中国はアプリケーションが得意だという慣性的な認識を残しました。

梁文鋒:我々は経済発展に伴い、### 中国も徐々に貢献者になるべきであり、常にフリーライダーであるべきではないと考えています。過去30年以上のIT革命の中で、我々は基本的に真の技術イノベーションに参加していませんでした。### 我々はムーアの法則が天から降ってくるのに慣れ、家で寝ていても18ヶ月ごとにより良いハードウェアとソフトウェアが出