以下は日本語に翻訳した内容です:
広がる硝煙は実際、ある事実を覆い隠していた:多くの大手企業が資金を投入して補助金を出すのとは異なり、DeepSeekは利益を上げている。
これの背景には、DeepSeekがモデルアーキテクチャに対して全方位的なイノベーションを行ったことがある。同社が提案した新しいMLA(### 新しいマルチヘッド潜在的注意メカニズム)アーキテクチャは、これまで最も一般的に使用されていたMHAアーキテクチャの5%-13%にメモリ使用量を削減した。同時に、独自のDeepSeekMoESparse構造も計算量を極限まで削減し、これらすべてが最終的にコスト削減につながった。
シリコンバレーでは、DeepSeekは「東洋からの神秘的な力」と呼ばれている。SemiAnalysisの主任アナリストは、DeepSeek V2の論文が「今年最高の論文の1つかもしれない」と考えている。OpenAIの元従業員Andrew Carrは論文が「驚くべき知恵に満ちている」と考え、その訓練設定を自身のモデルに適用した。OpenAIの元ポリシー責任者でAnthropicの共同創業者であるJack Clarkは、DeepSeekが「深遠で不可解な天才たちを雇用した」と考え、中国製の大規模モデルが「ドローンや電気自動車と同様に、無視できない力になる」と考えている。
シリコンバレーが主に物語の進展を牽引するAIの波の中で、これは稀有な状況である。業界の複数の関係者が我々に語ったところによると、### この強い反響はアーキテクチャレベルのイノベーションに由来しており、中国の大規模モデル企業や世界中のオープンソース基盤大規模モデルでも非常に稀な試みである。あるAI研究者は、Attentionアーキテクチャが提案されて以来長年、ほとんど成功裏に改良されたことがなく、大規模な検証はなおさらだと述べた。「これは意思決定時に切り捨てられるような考えでさえあります。ほとんどの人が自信を欠いているからです。」
一方で、中国製の大規模モデルがこれまでアーキテクチャレベルのイノベーションにほとんど踏み込んでこなかったのは、次のような固定観念を積極的に打ち破ろうとする人がほとんどいなかったからでもある:### アメリカは0から1の技術イノベーションが得意で、中国は1から10のアプリケーションイノベーションが得意だという考え方。しかも、このような行動は非常に割に合わない - 新世代のモデルは数ヶ月後には自然と誰かが作り出すので、中国企業はただ追随し、アプリケーションをうまく作ればよい。モデル構造にイノベーションを起こすということは、依拠すべき道筋がなく、多くの失敗を経験しなければならず、時間的にも経済的にも莫大なコストがかかることを意味する。
DeepSeekは明らかに逆行者である。大規模モデル技術は必然的に収束し、追随が賢明な近道だという喧騒の中で、DeepSeekは「回り道」で蓄積される価値を重視し、中国の大規模モデル起業家がアプリケーションイノベーションだけでなく、グローバルな技術イノベーションの潮流にも加わることができると考えている。
DeepSeekの多くの選択は他とは異なる。現時点で、中国の7つの大規模モデル起業企業の中で、「あれもこれも」路線を放棄し、今日まで研究と技術に専念し、対消費者アプリケーションを作っていない唯一の企業であり、商業化を全面的に考慮せず、オープンソース路線を固く選択し、資金調達さえしていない唯一の企業である。これらのことから、DeepSeekはしばしばテーブルの外に忘れ去られているが、一方で、コミュニティではユーザーによる「自発的な」宣伝が頻繁に行われている。
DeepSeekはどのようにして形成されたのか?我々はそのために、めったに表に出ないDeepSeekの創業者、梁文鋒氏にインタビューを行った。
幻方時代から、舞台裏で技術研究に没頭してきたこの80年代生まれの創業者は、DeepSeek時代になっても、その控えめな姿勢を続け、すべての研究員と同様に、毎日「論文を読み、コードを書き、グループディスカッションに参加する」生活を送っている。
多くの定量的ファンドの創業者が海外のヘッジファンドでの経歴を持ち、物理学や数学などの専攻出身が多いのとは異なり、梁文鋒氏は一貫して国内の背景を持ち、早くから浙江大学電子工程学部の人工知能方向で学んでいた。
業界の複数の関係者とDeepSeekの研究員が我々に語ったところによると、梁文鋒氏は現在の中国のAI界で非常に稀な「強力なインフラエンジニアリング能力とモデル研究能力を兼ね備え、さらにリソースを動員できる」、「高所から精確な判断を下すことができ、かつ細部においても第一線の研究員を上回る」人物であり、「恐ろしいほどの学習能力」を持ち、同時に「まったく経営者らしくなく、むしろ極度のギークのよう」だという。
これは特に貴重なインタビューだった。インタビューの中で、この技術的理想主義者は、現在の中国の科学技術界で特に希少な声を提供してくれた:### 彼は「利害観」よりも「是非観」を優先し、時代の慣性に目を向け、「独創的イノベーション」を議題に上げるよう促す数少ない人物の一人である。
1年前、DeepSeekが参入したばかりの頃、我々は初めて梁文鋒氏にインタビューを行った:『狂気の幻方:隠れたAI巨人の大規模モデルへの道』。当時の### 「必ず狂気のように大志を抱き、さらに狂気のように誠実でなければならない」というフレーズがまだ美しいスローガンだったとすれば、1年が経過し、それはすでに行動になりつつある。