大型語言模型格局轉變：OpenAI與蘋果調整策略

超越GPT-4已經不是唯一KPI，大模型進入爭奪市場的關鍵博弈期，要打動用戶，不能只靠曬技術實力，還要力證自家模型更具性價比——### 同等性能下模型更小，同等參數下性能更高更省錢。

事實上，這股"大模型反捲小型化"的技術風向，在去年下半年已經開始醞釀。

遊戲規則的改變者是兩家公司。一家是法國AI創企Mistral AI，去年9月用70億參數大模型擊敗有130億參數的Llama 2技驚四座，在開發者社區一戰成名；一家是中國AI創企面壁智能，今年2月推出更加濃縮的端側模型MiniCPM，用僅僅24億參數實現了超過Llama 2 13B的性能。

兩家創企都在開發者社區有口皆碑，多款模型登頂開源熱榜。特別是從清華大學自然語言處理實驗室孵化出的面壁智能，今年其多模態模型被美國頂級高校團隊"套殼"引起軒然大波，面壁的原創性工作在國內外學術圈都得到認可，令國產開源AI模型揚眉吐氣。

蘋果也從去年開始研究能更好適配手機的端側模型。一直走粗放式暴力擴張路線的OpenAI，倒是個相對令人意外的新入場者。上週推出輕量級模型GPT-4 mini，意味著大模型一哥主動走下"神壇"，開始順應業界趨勢，試圖用更廉價易得的模型來撬動更廣泛的市場。

2024年，將是大模型"小型化"的關鍵之年！

一、大模型時代的"摩爾定律"：高效才能可持續

當前大模型研發正陷入一種慣性：### 大力出奇跡。

2020年，OpenAI的一篇論文驗證了模型表現與規模存在強相關。只要吞下更多的高質量數據，訓出更大體量的模型，就能收穫更高的性能。

沿著這種簡單但奏效的路徑，近兩年全球掀起一場狂飆追擊更大模型的疾速競賽。這埋下了算法霸權的隱患，只有資金和算力充裕的團隊，才具備長期參與競賽的資本。

去年OpenAI CEO薩姆·阿爾特曼曾透露，訓練GPT-4的成本至少有### 1億美元。在尚未探出高利潤商業模式的情況下，即便是財大氣粗的科技大廠，也很難承受長期不計成本的投入。生態環境更無法容忍允許這種無底洞式的燒錢遊戲。

頂尖大語言模型之間的性能差距正在肉眼可見地縮小。GPT-4雖然穩居第一，但與Claude 3 Opus、Gemini 1.5 Pro的基準測試分數之差並未斷層。在一些能力上，百億級大模型甚至能取得更出色的表現。模型大小已經不是影響性能的唯一決定性因素。

倒不是頂級大模型缺乏吸引力，實在是輕量級模型更有性價比。

下圖是AI工程師Karina Ngugen今年3月底在社交平台上分享的一張AI推理成本趨勢圖，清晰繪製出了從2022年以來大語言模型在MMLU基準上的性能與其成本的關係：隨著時間推移，語言模型獲得更高的MMLU精度分數，相關成本大幅下降。新模型的準確率達到80%左右，而成本能比幾年前低幾個數量級。

世界變化相當之快，這幾個月又有一大波經濟高效的輕量級模型上新。

"大語言模型尺寸的競爭正在加劇——倒退！"AI技術大神Andrej Karpathy打賭："我們將看到一些非常非常小的模型'思考'的非常好且可靠。"

根據這些趨勢，清華大學計算機系長聘副教授、面壁智能首席科學家劉知遠最近提出了一個有意思的觀點：### 大模型時代有自己的"摩爾定律"。

具體而言，### 隨著數據-算力-算法協同發展，大模型知識密度持續增強，平均每8個月翻一番。

通過提高芯片上的電路密度，推動實現同等算力的計算設備從好幾間屋子才裝得下的超級計算機進化到能揣進口袋裡的手機，接下來大模型的發展也會遵循類似的規律。劉知遠將他提出的指導性規律命名為"面壁定律"。

以此趨勢下去，### 訓練一個千億參數模型，它所具備的能力，8個月後500億個參數的模型就能實現，再過8個月只需250億個參數就能做到。

目前進入大模型輕量化競賽的玩家兵分多路。

輕量級模型則是其旗艦模型的精簡版。在上週OpenAI上新後，GPT-4 mini憑藉超過Gemini Flash和Claude Haiku的性能，成為市場上10B以下最具性價比的選項，To C取代GPT-3.5供用戶免費使用，ToB把API價格猛降一把，讓採用大模型技術的門檻變得更低。

《機器學習工程》作者Andriy Burkov根據價格推斷GPT-4 mini的參數規格在7B左右。面壁智能CEO李大海推測GPT-4 mini是一個專家數量較多的"寬MoE"模型，而非端側模型，以一個高性價比雲端模型的定位，來極大降低大模型落地產業成本。