AI模型新趨勢:小型化與高性能並重

大模型雖強大,小模型卻更具性價比。

不是大模型用不起,而是小模型更具性價比

在 AI 圈的廣闊天地裡,小模型始終有著自己的傳說。

往外看,去年一鳴驚人的 Mistral 7B 一發布就被譽為「最好的 7B 模型」,在多項評估基準中均勝過了 13B 參數模型 Llama 2,並在推理、數學和程式碼生成方面超越了 Llama 34B。

今年微軟也開源最強小參數大模型 phi-3-mini,雖然參數量僅有 3.8B,但性能評測結果遠超同等參數規模水平,越級比肩 GPT-3.5、Claude-3 Sonnet 等更大模型。

往內看,面壁智能在 2 月初推出只有 2B 參數量級的端側語言模型面壁 MiniCPM,用更小的尺寸實現更強的性能,性能超越法國當紅大模型 Mistral-7B,被稱為「小鋼炮」。

前不久,僅有 8B 參數大小的 MiniCPM-Llama3-V2.5 在多模態綜合性能、OCR 能力等方面也超越了 GPT-4V 和 Gemini Pro 等更大模型,也因此遭到了史丹佛大學 AI 團隊的抄襲。

直到上週,深夜炸場的 OpenAI 推出被其描述為「功能最強、性價比最高的小參數模型」——GPT-4o mini,以浩蕩之勢將眾人視野拉回到小模型之中。

自從 OpenAI 將全世界拽入生成式 AI 的想像以來,從捲長上下文、到捲參數、智能體、再到如今價格戰,國內外的發展始終圍繞一個邏輯——通過邁向商業化從而留在牌桌上。

因此,在一眾的輿論場中,最引人注目的莫過於降價的 OpenAI 似乎也要入局價格戰了。

可能很多人對 GPT-4o mini 的價格沒有太清晰的概念。GPT-4o mini 每 100 萬輸入 token 價格為 15 美分,每 100 萬輸出 token 價格為 60 美分,比 GPT-3.5 Turbo 便宜超過 60%。

也就是說,GPT-4o mini 生成一本 2500 頁的書,價格只需要 60 美分。

OpenAI CEO Sam Altman 也在 X 上不免感慨,兩年前最強的模型與 GPT-4o mini 相比,不僅性能差距巨大,而且使用成本高達現在的 100 倍。

在大模型價格戰愈發激烈的同時,一些高效經濟的開源小模型也更容易受到市場的關注,畢竟不是大模型用不起,而是小模型更具性價比。

一方面,在全球 GPU 被爆買乃至缺貨的情況下,訓練和部署成本較低的開源小模型也足以讓其逐漸占據上風。

例如,面壁智能推出的 MiniCPM,憑藉其較小的參數能夠實現推理成本的斷崖式下跌,甚至可以實現 CPU 推理,只需一台機器持續參數訓練,一張顯卡進行參數微調,同時也有持續改進的成本空間。

如果你是成熟的開發者,你甚至可以用自己搭建小模型的方式去訓練一個法律領域的垂直模型,其推理成本可能僅為使用大型模型微調的千分之一。

一些端側「小模型」的應用落地讓不少廠商能看到率先盈利的曙光。比如面壁智能助力深圳市中級人民法院上線運行人工智能輔助審判系統,向市場證明了技術的價值。

當然,更準確地說,我們將開始看到的變化不是從大模型到小模型的轉變,而是從單一類別的模型轉向一個模型組合的轉變,而選擇合適的模型取決於組織的具體需求、任務的複雜性和可用資源。

另一方面,小模型在移動裝置、嵌入式系統或低功耗環境中更易於部署和整合。

小模型的參數規模相對較小,相比大型模型,其對計算資源(如 AI 算力、記憶體等)的需求較低,能夠在資源受限的端側裝置上更流暢地運行。並且,端側裝置通常對能耗、發熱等問題有著更為極致的要求,經過特別設計的小模型可以更好地適配端側裝置的限制。

榮耀 CEO 趙明說過,端側由於 AI 算力問題,參數可能在 1B 到 10B 之間,網路大模型雲計算的能力可以做到 100-1000 億,甚至更高,這種能力就是兩者的差距。

手機是在一個很有限的空間內,對吧?它是在有限的電池,有限的散熱和有限儲存環境下支持 70 億,你就想像一下其中這麼多約束條件,它一定是最難的。

我們也曾揭秘負責運作蘋果智能的幕後功臣,其中經過微調的 3B 小模型專用於摘要、潤色等任務,在經過適配器的加持後,能力優於 Gemma-7B,適合在手機終端運行。

所以我們看到,前 OpenAI 大神 Andrej Karpathy 最近也提出了一個判斷,模型尺寸的競爭將會「反向內捲」,不是越來越大,而是比誰更小更靈活。

小模型憑什麼以小勝大

Andrej Karpathy 的預測並非無的放矢。

在這個數據為中心的時代,模型正迅速變得更加龐大和複雜,經過海量數據訓練出來的超大模型(如 GPT-4),大部分其實是用來記住大量的無關緊要細節的,也就是死記硬背資料。

然而,經過微調的模型在特定任務上甚至「以小勝大」,好用程度媲美不少「超大模型」。

Hugging Face CEO Clem Delangue 也曾建議,多達 99% 的使用案例可以通過使用小模型來解決,並預測 2024 年將是小型語言模型的一年。

究其原因之前,我們得先科普一些知識。

2020 年,OpenAI 在一篇論文中提出一個著名的定律:Scaling law,指的是隨著模型大小的增加,其性能也會隨之增加。隨著 GPT-4 等模型的推出,Scaling law 的優勢也逐漸顯現出來。

AI 領域的研究者和工程師堅信,通過增加模型的參數數量,可以進一步提升模型的學習能力和泛化能力。就這樣,我們見證模型規模從數十億參數躍升至幾千億,甚至朝著萬億參數規模的模型攀登。

在 AI 的世界裡,模型的規模並非衡量其智能的唯一標準。

相反,一個精巧設計的小型模型,通過優化算法、提升數據質量、採用先進的壓縮技術,往往能夠在特定任務上展現出與大型模型相媲美甚至更優的性能。

這種以小博大的策略,正成為 AI 領域的新趨勢。 其中,提高數據質量是小模型以小勝大的方法之一。

Coalesce 的首席技術官兼聯合創始人 Satish Jayanthi 曾這樣形容數據對模型的作用:

如果 17 世紀就有 LLM,而我們問 ChatGPT 地球是圓的還是平的,它回答說地球是平的,那將是因為我們提供的數據讓它相信這是事實。我們提供給 LLM 的數據以及我們的訓練方式,將直接影響其輸出。

為了產出高質量的結果,大型語言模型需要接受針對特定主題和領域的高質量、有針對性的數據訓練。就像學生需要優質的教材來學習一樣,LLM 也需要優質的數據源。