大型模型架構之爭:CoE與MoE的較量

大型語言模型產業已形成獨特的生產鏈

當暴力不再有奇蹟,大模型正陷入技術的詛咒

絕對的大參數,或許並不是大模型落地的唯一解法。這句話,正逐漸成為大模型產業的共識。

其中,參數做大路上的第一個隘口,正是這場盛宴中最大的獲勝者——英偉達。

最近,一份出自Meta 研究報告顯示:其最新的 Llama 3 405B 參數模型在 16384 個 Nvidia H100 GPU 組成的集群上訓練時,54 天內經歷了 419 次意外,訓練期間平均每三個小時就發生一次故障。與此同時,每次的單個 GPU 故障,都會中斷整個訓練過程,導致訓練重新啟動。

簡單翻譯來說,當前的大模型參數量,已經接近硬體所能支撐的極限。即便有無窮無盡的GPU,也不再能解決大模型訓練中的算力模型。如果朝著擴大參數的路上繼續狂奔,那麼訓練的過程,將變成西西弗斯推石頭式的無限重來。

硬體增大了大模型擴張的難度,細分場景中,智能程度不再與參數量成正比,則從實用角度為這場暴力的歡愉畫上了一個大大的問號。

大模型的場景正不斷變得複雜化和專業化、碎片化,想要一個模型既能回答通識問題,又能解決專業領域問題,幾乎異想天開。

一個國內大模型廠商最愛使用的技術比較維度是:與GPT4比詩詞賞析和弱智吧段子,幾乎無一例外,無論模型大小,開源模型套殼與否,國產大模型全數吊打"世界第一"。甚至,在最基礎的魯迅與周樹人的關係這樣的文學常識題上,最優秀的大模型,也比不過一個最傳統的搜索引擎。

回歸到實際應用中,商業化的不可能三角,徹底為參數信徒們兜頭澆來一盆涼水。

在實際應用中,除了模型的智能程度,產品經理們還需考慮速度與成本兩大因素。通常來說,在問答中1秒內的響應速度,99%的準確率,以及能打平成本的商業模式,會是一個大模型生存的必要條件。

但使用大參數路線推高智能,往往也就意味著智能程度越高,產品的應答速度越慢,成本越高,反之亦然。

如果一味由著參數無限制擴張,AI也將無可避免的變成一場資本的戰爭,但擴張的代價,卻遠遠超過歷史上的任何一場同等階段的商業比拼……對已經踩下油門的玩家來說,只有把籌碼加到對手跟不起的水平,才能讓自己輸得不會太慘。

於是,面對隱約可及的天花板,行業的課題開始轉向:如果萬能模型不存在,暴力無奇蹟,行業要去往哪裡?

大模型的T型車時刻:CoE or MoE?

當一個大模型同時完成通用+專業的可行性被堵死,多模型聯合分工成為了行業第二階段的主旋律。

1913年,福特公司創造性的將屠宰線思路引入汽車產業,開發出了世界上第一條流水線。汽車生產,自此從老師傅手工組裝,邁入工業化進程,一輛汽車的生產時間壓縮近60倍,售價降低也足足一倍有餘。汽車製造,自此邁入一個新的時代。

同樣的T型車時刻,也發生在大模型產業。

以最典型的場景翻譯來說,一個好的翻譯,應達到信達雅三層境界。但在大模型的世界裡,傳統翻譯大模型只能做到信,達與雅,則依靠寫作大模型才能完成。

但關於何如進行多模型分工,行業則分成了旗幟鮮明的合縱派與連橫派。

合縱派的技術思路是 MoE。

所謂MoE(Mixture-of-Experts),翻譯成中文就是混合專家模型,將多個細分領域的專家模型組合成一個超級模型。早在2022年,Google 就提出了MoE大模型Switch Transformer,使得其憑藉1571B的參數量,也能在預訓練任務上顯示出比 T5-XXL(11B) 模型更高的樣本效率(更準確,且計算成本沒有顯著提升)。

不僅如此,美國知名駭客George Hotz與PyTorch的創建者Soumith Chintala也先後表示,GPT4也是由8個220B參數量的MoE模型組成的 1760B參數大模型,算不嚴格意義的"一個"萬億模型。

然而,這種8合一的思路,也導致了MoE的設計與每次升級迭代都需要花費巨大的資源。類似日常爬山,爬一座8848m高的珠穆朗瑪峰的難度,遠不是爬8次海拔1108米的雁蕩山耗費體力的加和。因此,有能力參與的,往往都是8項全能其具備絕對領先優勢的AI技術龍頭。

於是,隨著MoE逐漸成為寡頭的遊戲,一種新的技術思路走上台前——連橫派的CoE。

CoE(Collaboration-of-Experts),即專家協同模型。通俗來說,一個入口同時接入多家模型,而入口會在模型分析之前,增加一個意圖識別環節,然後才進行任務派解,決定任務是由哪款模型起作用,或者哪幾款模型打配合。相對於MoE,CoE最大的優勢是,各個專家模型之間可以彼此協同工作,但不存在綁定關係。

相比MoE,CoE的每個專家模型之間有更多的協同,更精準的分工,並且更靈活、更專業細分。這一思路,相比MoE,具有更高的效率,和更低的API接口和Token使用成本。

那麼,MoE與CoE哪種路線會更占上風?

另一種解題思路:什麼決定了用戶的智能體驗?

當周鴻祎一襲紅衣轉型AI教父時,360內部,關於如何CoE與MoE路線的論證,也在最近一年多時間裡反復上演。

如果走MoE,360多年技術的積累,足以支撐打完這場仗。

而走CoE,就意味著與更多的大模型廠家同分一杯羹。

"三個臭皮匠,頂一個諸葛亮"給了360集團副總裁梁志輝啟發,要將寶押在CoE上:

一家企業,哪怕做到Open AI式"8項全能",依然不免存在短板。但如果將最優秀的大模型企業能力,通過CoE能力,則意味著優勢互補與真正十八項全能的實現。

測評結果顯示,基於360 CoE AI能力的AI助手Beta版,在引入360智腦在內的16家國內最強大模型集各家所長後,已在11個單項能力測試指標上超越GPT-4o。

與此同時,即使將底層大模型能力"外包",360依然能在 CoE 的浪潮中,找到自己的獨家定位。

從產品層面看, 360 CoE 產品AI助手可以被分成兩個部分:其中,語料積累與算法技術,主要依靠的是360智腦在內的16家國產大模型的接入,類似分工不同的特種兵;而360則充當指揮官的角色,通過意圖識別模型,來實現對於用戶意圖更加精準的理解;通過任務分解和調度模型,實現了對於眾多專家模型網絡(100+LLM)、千億規模知識中樞和200+第三方工具的智能調度,進而實現比MoE更高的靈活性和效率。