探尋DeepSeek:一段更純粹的中國科技理想主義傳奇 | 36氪獨家報導

彌漫的硝煙其實掩蓋了一個事實：與很多大廠燒錢補貼不同，DeepSeek是有利潤的。

這背後，是DeepSeek對模型架構進行了全方位創新。它提出的一種嶄新的MLA（### 一種新的多頭潛在注意力機制）架構，把顯存佔用降到了過去最常用的MHA架構的5%-13%，同時，它獨創的DeepSeekMoESparse結構，也把計算量降到極致，所有這些最終促成了成本的下降。

在矽谷，DeepSeek被稱作"來自東方的神秘力量"。SemiAnalysis首席分析師認為，DeepSeek V2論文"可能是今年最好的一篇"。OpenAI前員工Andrew Carr認為論文"充滿驚人智慧"，並將其訓練設置應用於自己的模型。而OpenAI前政策主管、Anthropic聯合創始人Jack Clark認為，DeepSeek"僱傭了一批高深莫測的奇才"，還認為中國製造的大模型，"將和無人機、電動汽車一樣，成為不容忽視的力量。"

在基本由矽谷牽動故事進展的AI浪潮裡，這是罕有的情形。多位行業人士告訴我們，### 這種強烈的反響源自架構層面的創新，是國產大模型公司乃至全球開源基座大模型都很罕見的嘗試。一位AI研究者表示，Attention架構提出多年來，幾乎未被成功改過，更遑論大規模驗證。"這甚至是一個做決策時就會被掐斷的念頭，因為大部分人都缺乏信心。"

而另一方面，國產大模型之前很少涉足架構層面的創新，也是因為很少有人主動去擊破那樣一種成見：### 美國更擅長從0-1的技術創新，而中國更擅長從1-10的應用創新。何況這種行為非常不划算——新一代模型，過幾個月自然有人做出來，中國公司只要跟隨、做好應用即可。對模型結構進行創新，意味著沒有路徑可依，要經歷很多失敗，時間、經濟成本都耗費巨大。

DeepSeek顯然是逆行者。在一片認為大模型技術必然趨同，follow是更聰明捷徑的喧嘩聲中，DeepSeek看重"彎路"中積累的價值，並認為中國的大模型創業者除應用創新外，也可以加入到全球技術創新的洪流中。

DeepSeek的很多抉擇都與眾不同。截至目前，7家中國大模型創業公司中，它是唯一一家放棄"既要又要"路線，至今專注在研究和技術，未做toC應用的公司，也是唯一一家未全面考慮商業化，堅定選擇開源路線甚至都沒融過資的公司。這些使得它經常被遺忘在牌桌之外，但在另一端，它又經常在社區被用戶"自來水"式傳播。

DeepSeek究竟是如何煉成的？我們為此訪談了甚少露面的DeepSeek創始人梁文鋒。

這位從幻方時代，就在幕後潛心研究技術的80後創始人，在DeepSeek時代，依舊延續著他的低調作風，和所有研究員一樣，每天"看論文，寫代碼，參與小組討論"。

和很多量化基金創始人都有過海外對沖基金履歷，多出身物理、數學等專業不同的是，梁文鋒一直是本土背景，早年就讀的也是浙江大學電子工程系人工智能方向。

多位行業人士和DeepSeek研究員告訴我們，梁文鋒是當下中國AI界非常罕見的"兼具強大的infra工程能力和模型研究能力，又能調動資源"、"既可以從高處做精準判斷，又可以在細節上強過一線研究員"的人，他擁有"令人恐怖的學習能力"，同時又"完全不像一個老闆，而更像一個極客"。

這是一次尤為難得的訪談。訪談裡，這位技術理想主義者，提供了目前中國科技界特別稀缺的一種聲音：### 他是少有的把"是非觀"置於"利害觀"之前，並提醒我們看到時代慣性，把"原創式創新"提上日程的人。

一年前，DeepSeek剛下場時，我們初次訪談了梁文鋒：《瘋狂的幻方：一家隱形AI巨頭的大模型之路》。如果說當時那句### 「務必要瘋狂地懷抱雄心，且還要瘋狂地真誠」還是一句美麗的口號，一年過去，它已經在成為一種行動。

以下為對話部分：

### 價格戰第一槍是怎麼打響的？

「暗湧」：DeepSeek V2模型發布後，迅速引發一場血雨腥風的大模型價格戰，有人說你們是行業的一條鯰魚。

梁文鋒：我們不是有意成為一條鯰魚，只是不小心成了一條鯰魚。

「暗湧」：這個結果讓你們意外嗎？

梁文鋒：非常意外。沒想到價格讓大家這麼敏感。我們只是按照自己的步調來做事，然後核算成本定價。我們的原則是不貼錢，也不賺取暴利。這個價格也是在成本之上稍微有點利潤。

「暗湧」：5天後智譜AI就跟進了，之後是字節、阿里、百度、騰訊等大廠。

梁文鋒：智譜AI降的是一個入門級產品，和我們同級別的模型仍然收費很貴。字節是真正第一個跟進的。旗艦模型降到和我們一樣的價格，然後觸發了其它大廠紛紛降價。因為大廠的模型成本比我們高很多，所以我們沒想到會有人虧錢做這件事，最後就變成了互聯網時代的燒錢補貼的邏輯。

「暗湧」：外部看來，降價很像在搶用戶，互聯網時代的價格戰通常如此。

梁文鋒：搶用戶並不是我們的主要目的。我們降價一方面是因為我們在探索下一代模型的結構中，成本先降下來了，另一方面也覺得無論API,還是AI,都應該是普惠的、人人可以用得起的東西。

「暗湧」：在這之前，大部分中國公司都會直接copy這一代的 Llama結構去做應用，為什麼你們會從模型結構切入？

梁文鋒：如果目標是做應用，那沿用 Llama結構，短平快上產品也是合理選擇。但我們目的地是AGI，這意味著我們需要研究新的模型結構，在有限資源下，實現更強的模型能力。這是scale up到更大模型所需要做的基礎研究之一。除了模型結構，我們還做了大量其他的研究，包括怎麼構造數據，如何讓模型更像人類等，這都體現在我們發布的模型裡。另外，Llama的結構，在訓練效率和推理成本上，和國外先進水平估計也已有兩代差距。

「暗湧」：這種代差主要來自哪裡？

梁文鋒：首先訓練效率有差距。我們估計，國內最好的水平和國外最好的相比，模型結構和訓練動力學上可能有一倍的差距，光這一點我們要消耗兩倍的算力才能達到同樣效果。另外數據效率上可能也有一倍差距，也就是我們要消耗兩倍的訓練數據和算力，才能達到同樣的效果。合起來就要多消耗4倍算力。我們要做的，正是不停地去縮小這些差距。

「暗湧」：大部分中國公司都選擇既要模型又要應用，為什麼DeepSeek目前選擇只做研究探索？

梁文鋒：因為我們覺得現在最重要的是參與到全球創新的浪潮裡去。過去很多年，中國公司習慣了別人做技術創新，我們拿過來做應用變現，但這並非是一種理所當然。這一波浪潮裡，我們的出發點，就不是趁機賺一筆，而是走到技術的前沿，去推動整個生態發展。

「暗湧」：互聯網和移動互聯網時代留給大部分人的慣性認知是，美國擅長搞技術創新，中國更擅長做應用。

梁文鋒：我們認為隨著經濟發展，### 中國也要逐步成為貢獻者，而不是一直搭便車。過去三十多年IT浪潮裡，我們基本沒有參與到真正的技術創新裡。### 我們已經習慣摩爾定律從天而降，躺在家裡18個月就會出來更好的硬件和軟件。Scaling Law也在被如此對待。

但其實，這是西方主導的技術社區一代代孜孜不倦創造出來的，只因為之前我們沒有參與這個過程，以至於忽視了它的存在。