大型模型架構之爭：CoE與MoE的較量

當暴力不再有奇蹟，大模型正陷入技術的詛咒

絕對的大參數，或許並不是大模型落地的唯一解法。這句話，正逐漸成為大模型產業的共識。

其中，參數做大路上的第一個隘口，正是這場盛宴中最大的獲勝者——英偉達。

最近，一份出自Meta 研究報告顯示：其最新的 Llama 3 405B 參數模型在 16384 個 Nvidia H100 GPU 組成的集群上訓練時，54 天內經歷了 419 次意外，訓練期間平均每三個小時就發生一次故障。與此同時，每次的單個 GPU 故障，都會中斷整個訓練過程，導致訓練重新啟動。

簡單翻譯來說，當前的大模型參數量，已經接近硬體所能支撐的極限。即便有無窮無盡的GPU，也不再能解決大模型訓練中的算力模型。如果朝著擴大參數的路上繼續狂奔，那麼訓練的過程，將變成西西弗斯推石頭式的無限重來。

硬體增大了大模型擴張的難度，細分場景中，智能程度不再與參數量成正比，則從實用角度為這場暴力的歡愉畫上了一個大大的問號。

大模型的場景正不斷變得複雜化和專業化、碎片化，想要一個模型既能回答通識問題，又能解決專業領域問題，幾乎異想天開。

一個國內大模型廠商最愛使用的技術比較維度是：與GPT4比詩詞賞析和弱智吧段子，幾乎無一例外，無論模型大小，開源模型套殼與否，國產大模型全數吊打"世界第一"。甚至，在最基礎的魯迅與周樹人的關係這樣的文學常識題上，最優秀的大模型，也比不過一個最傳統的搜索引擎。

回歸到實際應用中，商業化的不可能三角，徹底為參數信徒們兜頭澆來一盆涼水。

在實際應用中，除了模型的智能程度，產品經理們還需考慮速度與成本兩大因素。通常來說，在問答中1秒內的響應速度，99%的準確率，以及能打平成本的商業模式，會是一個大模型生存的必要條件。

但使用大參數路線推高智能，往往也就意味著智能程度越高，產品的應答速度越慢，成本越高，反之亦然。

如果一味由著參數無限制擴張，AI也將無可避免的變成一場資本的戰爭，但擴張的代價，卻遠遠超過歷史上的任何一場同等階段的商業比拼……對已經踩下油門的玩家來說，只有把籌碼加到對手跟不起的水平，才能讓自己輸得不會太慘。

於是，面對隱約可及的天花板，行業的課題開始轉向：如果萬能模型不存在，暴力無奇蹟，行業要去往哪裡？

大模型的T型車時刻：CoE or MoE？

當一個大模型同時完成通用+專業的可行性被堵死，多模型聯合分工成為了行業第二階段的主旋律。

1913年,福特公司創造性的將屠宰線思路引入汽車產業，開發出了世界上第一條流水線。汽車生產，自此從老師傅手工組裝，邁入工業化進程，一輛汽車的生產時間壓縮近60倍，售價降低也足足一倍有餘。汽車製造，自此邁入一個新的時代。

同樣的T型車時刻，也發生在大模型產業。

以最典型的場景翻譯來說，一個好的翻譯，應達到信達雅三層境界。但在大模型的世界裡，傳統翻譯大模型只能做到信，達與雅，則依靠寫作大模型才能完成。

但關於何如進行多模型分工，行業則分成了旗幟鮮明的合縱派與連橫派。

合縱派的技術思路是 MoE。

所謂MoE（Mixture-of-Experts），翻譯成中文就是混合專家模型，將多個細分領域的專家模型組合成一個超級模型。早在2022年，Google 就提出了MoE大模型Switch Transformer，使得其憑藉1571B的參數量，也能在預訓練任務上顯示出比 T5-XXL（11B）模型更高的樣本效率（更準確，且計算成本沒有顯著提升）。

不僅如此，美國知名駭客George Hotz與PyTorch的創建者Soumith Chintala也先後表示，GPT4也是由8個220B參數量的MoE模型組成的 1760B參數大模型，算不嚴格意義的"一個"萬億模型。

然而，這種8合一的思路，也導致了MoE的設計與每次升級迭代都需要花費巨大的資源。類似日常爬山，爬一座8848m高的珠穆朗瑪峰的難度，遠不是爬8次海拔1108米的雁蕩山耗費體力的加和。因此，有能力參與的，往往都是8項全能其具備絕對領先優勢的AI技術龍頭。

於是，隨著MoE逐漸成為寡頭的遊戲，一種新的技術思路走上台前——連橫派的CoE。

CoE（Collaboration-of-Experts），即專家協同模型。通俗來說，一個入口同時接入多家模型，而入口會在模型分析之前，增加一個意圖識別環節，然後才進行任務派解，決定任務是由哪款模型起作用，或者哪幾款模型打配合。相對於MoE，CoE最大的優勢是，各個專家模型之間可以彼此協同工作，但不存在綁定關係。

相比MoE，CoE的每個專家模型之間有更多的協同，更精準的分工，並且更靈活、更專業細分。這一思路，相比MoE，具有更高的效率，和更低的API接口和Token使用成本。

那麼，MoE與CoE哪種路線會更占上風？

另一種解題思路：什麼決定了用戶的智能體驗？

當周鴻祎一襲紅衣轉型AI教父時，360內部，關於如何CoE與MoE路線的論證，也在最近一年多時間裡反復上演。

如果走MoE，360多年技術的積累，足以支撐打完這場仗。

而走CoE，就意味著與更多的大模型廠家同分一杯羹。

"三個臭皮匠，頂一個諸葛亮"給了360集團副總裁梁志輝啟發，要將寶押在CoE上：

一家企業，哪怕做到Open AI式"8項全能"，依然不免存在短板。但如果將最優秀的大模型企業能力，通過CoE能力，則意味著優勢互補與真正十八項全能的實現。

測評結果顯示，基於360 CoE AI能力的AI助手Beta版，在引入360智腦在內的16家國內最強大模型集各家所長後，已在11個單項能力測試指標上超越GPT-4o。

與此同時，即使將底層大模型能力"外包"，360依然能在 CoE 的浪潮中，找到自己的獨家定位。

從產品層面看， 360 CoE 產品AI助手可以被分成兩個部分：其中，語料積累與算法技術，主要依靠的是360智腦在內的16家國產大模型的接入，類似分工不同的特種兵；而360則充當指揮官的角色，通過意圖識別模型，來實現對於用戶意圖更加精準的理解；通過任務分解和調度模型，實現了對於眾多專家模型網絡（100+LLM）、千億規模知識中樞和200+第三方工具的智能調度，進而實現比MoE更高的靈活性和效率。

大型模型架構之爭：CoE與MoE的較量

大型語言模型產業已形成獨特的生產鏈

當暴力不再有奇蹟，大模型正陷入技術的詛咒

大模型的T型車時刻：CoE or MoE？

另一種解題思路：什麼決定了用戶的智能體驗？