彌漫的硝煙其實掩蓋了一個事實:與很多大廠燒錢補貼不同,DeepSeek是有利潤的。
這背後,是DeepSeek對模型架構進行了全方位創新。它提出的一種嶄新的MLA(### 一種新的多頭潛在注意力機制)架構,把顯存佔用降到了過去最常用的MHA架構的5%-13%,同時,它獨創的DeepSeekMoESparse結構,也把計算量降到極致,所有這些最終促成了成本的下降。
在矽谷,DeepSeek被稱作"來自東方的神秘力量"。SemiAnalysis首席分析師認為,DeepSeek V2論文"可能是今年最好的一篇"。OpenAI前員工Andrew Carr認為論文"充滿驚人智慧",並將其訓練設置應用於自己的模型。而OpenAI前政策主管、Anthropic聯合創始人Jack Clark認為,DeepSeek"僱傭了一批高深莫測的奇才",還認為中國製造的大模型,"將和無人機、電動汽車一樣,成為不容忽視的力量。"
在基本由矽谷牽動故事進展的AI浪潮裡,這是罕有的情形。多位行業人士告訴我們,### 這種強烈的反響源自架構層面的創新,是國產大模型公司乃至全球開源基座大模型都很罕見的嘗試。一位AI研究者表示,Attention架構提出多年來,幾乎未被成功改過,更遑論大規模驗證。"這甚至是一個做決策時就會被掐斷的念頭,因為大部分人都缺乏信心。"
而另一方面,國產大模型之前很少涉足架構層面的創新,也是因為很少有人主動去擊破那樣一種成見:### 美國更擅長從0-1的技術創新,而中國更擅長從1-10的應用創新。何況這種行為非常不划算——新一代模型,過幾個月自然有人做出來,中國公司只要跟隨、做好應用即可。對模型結構進行創新,意味著沒有路徑可依,要經歷很多失敗,時間、經濟成本都耗費巨大。
DeepSeek顯然是逆行者。在一片認為大模型技術必然趨同,follow是更聰明捷徑的喧嘩聲中,DeepSeek看重"彎路"中積累的價值,並認為中國的大模型創業者除應用創新外,也可以加入到全球技術創新的洪流中。
DeepSeek的很多抉擇都與眾不同。截至目前,7家中國大模型創業公司中,它是唯一一家放棄"既要又要"路線,至今專注在研究和技術,未做toC應用的公司,也是唯一一家未全面考慮商業化,堅定選擇開源路線甚至都沒融過資的公司。這些使得它經常被遺忘在牌桌之外,但在另一端,它又經常在社區被用戶"自來水"式傳播。
DeepSeek究竟是如何煉成的?我們為此訪談了甚少露面的DeepSeek創始人梁文鋒。
這位從幻方時代,就在幕後潛心研究技術的80後創始人,在DeepSeek時代,依舊延續著他的低調作風,和所有研究員一樣,每天"看論文,寫代碼,參與小組討論"。
和很多量化基金創始人都有過海外對沖基金履歷,多出身物理、數學等專業不同的是,梁文鋒一直是本土背景,早年就讀的也是浙江大學電子工程系人工智能方向。
多位行業人士和DeepSeek研究員告訴我們,梁文鋒是當下中國AI界非常罕見的"兼具強大的infra工程能力和模型研究能力,又能調動資源"、"既可以從高處做精準判斷,又可以在細節上強過一線研究員"的人,他擁有"令人恐怖的學習能力",同時又"完全不像一個老闆,而更像一個極客"。
這是一次尤為難得的訪談。訪談裡,這位技術理想主義者,提供了目前中國科技界特別稀缺的一種聲音:### 他是少有的把"是非觀"置於"利害觀"之前,並提醒我們看到時代慣性,把"原創式創新"提上日程的人。
一年前,DeepSeek剛下場時,我們初次訪談了梁文鋒 :《瘋狂的幻方:一家隱形AI巨頭的大模型之路》 。如果說當時那句### 「務必要瘋狂地懷抱雄心,且還要瘋狂地真誠」還是一句美麗的口號,一年過去,它已經在成為一種行動。
以下為對話部分:
### 價格戰第一槍是怎麼打響的?
「暗湧」:DeepSeek V2模型發布後,迅速引發一場血雨腥風的大模型價格戰,有人說你們是行業的一條鯰魚。
梁文鋒:我們不是有意成為一條鯰魚,只是不小心成了一條鯰魚。
「暗湧」:這個結果讓你們意外嗎?
梁文鋒:非常意外。沒想到價格讓大家這麼敏感。我們只是按照自己的步調來做事,然後核算成本定價。我們的原則是不貼錢,也不賺取暴利。這個價格也是在成本之上稍微有點利潤。
「暗湧」:5天後智譜AI就跟進了,之後是字節、阿里、百度、騰訊等大廠。
梁文鋒:智譜AI降的是一個入門級產品,和我們同級別的模型仍然收費很貴。字節是真正第一個跟進的。旗艦模型降到和我們一樣的價格,然後觸發了其它大廠紛紛降價。因為大廠的模型成本比我們高很多,所以我們沒想到會有人虧錢做這件事,最後就變成了互聯網時代的燒錢補貼的邏輯。
「暗湧」:外部看來,降價很像在搶用戶,互聯網時代的價格戰通常如此。
梁文鋒:搶用戶並不是我們的主要目的。我們降價一方面是因為我們在探索下一代模型的結構中,成本先降下來了,另一方面也覺得無論API,還是AI,都應該是普惠的、人人可以用得起的東西。
「暗湧」:在這之前,大部分中國公司都會直接copy這一代的 Llama結構去做應用,為什麼你們會從模型結構切入?
梁文鋒:如果目標是做應用,那沿用 Llama結構,短平快上產品也是合理選擇。但我們目的地是AGI,這意味著我們需要研究新的模型結構,在有限資源下,實現更強的模型能力。這是scale up到更大模型所需要做的基礎研究之一。除了模型結構,我們還做了大量其他的研究,包括怎麼構造數據,如何讓模型更像人類等,這都體現在我們發布的模型裡。另外,Llama的結構,在訓練效率和推理成本上,和國外先進水平估計也已有兩代差距。
「暗湧」:這種代差主要來自哪裡?
梁文鋒:首先訓練效率有差距。我們估計,國內最好的水平和國外最好的相比,模型結構和訓練動力學上可能有一倍的差距,光這一點我們要消耗兩倍的算力才能達到同樣效果。另外數據效率上可能也有一倍差距,也就是我們要消耗兩倍的訓練數據和算力,才能達到同樣的效果。合起來就要多消耗4倍算力。我們要做的,正是不停地去縮小這些差距。
「暗湧」:大部分中國公司都選擇既要模型又要應用,為什麼DeepSeek目前選擇只做研究探索?
梁文鋒:因為我們覺得現在最重要的是參與到全球創新的浪潮裡去。過去很多年,中國公司習慣了別人做技術創新,我們拿過來做應用變現,但這並非是一種理所當然。這一波浪潮裡,我們的出發點,就不是趁機賺一筆,而是走到技術的前沿,去推動整個生態發展。
「暗湧」:互聯網和移動互聯網時代留給大部分人的慣性認知是,美國擅長搞技術創新,中國更擅長做應用。
梁文鋒:我們認為隨著經濟發展,### 中國也要逐步成為貢獻者,而不是一直搭便車。過去三十多年IT浪潮裡,我們基本沒有參與到真正的技術創新裡。### 我們已經習慣摩爾定律從天而降,躺在家裡18個月就會出來更好的硬件和軟件。Scaling Law也在被如此對待。
但其實,這是西方主導的技術社區一代代孜孜不倦創造出來的,只因為之前我們沒有參與這個過程,以至於忽視了它的存在。