大模型架构之争：CoE与MoE的较量

当暴力不再有奇迹，大模型正陷入技术的诅咒

绝对的大参数，或许并不是大模型落地的唯一解法。这句话，正逐渐成为大模型产业的共识。

其中，参数做大路上的第一个隘口，正是这场盛宴中最大的获胜者——英伟达。

最近，一份出自Meta研究报告显示：其最新的Llama 3 405B参数模型在16384个Nvidia H100 GPU组成的集群上训练时，54天内经历了419次意外，训练期间平均每三个小时就发生一次故障。与此同时，每次的单个GPU故障，都会中断整个训练过程，导致训练重新启动。

简单翻译来说，当前的大模型参数量，已经接近硬件所能支撑的极限。即便有无穷无尽的GPU，也不再能解决大模型训练中的算力问题。如果朝着扩大参数的路上继续狂奔，那么训练的过程，将变成西西弗斯推石头式的无限重来。

硬件增大了大模型扩张的难度，细分场景中，智能程度不再与参数量成正比，则从实用角度为这场暴力的欢愉画上了一个大大的问号。

大模型的场景正不断变得复杂化和专业化、碎片化，想要一个模型既能回答通识问题，又能解决专业领域问题，几乎异想天开。

一个国内大模型厂商最爱使用的技术比较维度是：与GPT4比诗词赏析和弱智吧段子，几乎无一例外，无论模型大小，开源模型套壳与否，国产大模型全数吊打"世界第一"。甚至，在最基础的鲁迅与周树人的关系这样的文学常识题上，最优秀的大模型，也比不过一个最传统的搜索引擎。

回归到实际应用中，商业化的不可能三角，彻底为参数信徒们兜头浇来一盆凉水。

在实际应用中，除了模型的智能程度，产品经理们还需考虑速度与成本两大因素。通常来说，在问答中1秒内的响应速度，99%的准确率，以及能打平成本的商业模式，会是一个大模型生存的必要条件。

但使用大参数路线推高智能，往往也就意味着智能程度越高，产品的应答速度越慢，成本越高，反之亦然。

如果一味由着参数无限制扩张，AI也将无可避免的变成一场资本的战争，但扩张的代价，却远远超过历史上的任何一场同等阶段的商业比拼……对已经踩下油门的玩家来说，只有把筹码加到对手跟不起的水平，才能让自己输得不会太惨。

于是，面对隐约可及的天花板，行业的课题开始转向：如果万能模型不存在，暴力无奇迹，行业要去往哪里？

大模型的T型车时刻：CoE or MoE？

当一个大模型同时完成通用+专业的可行性被堵死，多模型联合分工成为了行业第二阶段的主旋律。

1913年，福特公司创造性的将屠宰线思路引入汽车产业，开发出了世界上第一条流水线。汽车生产，自此从老师傅手工组装，迈入工业化进程，一辆汽车的生产时间压缩近60倍，售价降低也足足一倍有余。汽车制造，自此迈入一个新的时代。

同样的T型车时刻，也发生在大模型产业。

以最典型的场景翻译来说，一个好的翻译，应达到信达雅三层境界。但在大模型的世界里，传统翻译大模型只能做到信，达与雅，则依靠写作大模型才能完成。

但关于如何进行多模型分工，行业则分成了旗帜鲜明的合纵派与连横派。

合纵派的技术思路是MoE。

所谓MoE（Mixture-of-Experts），翻译成中文就是混合专家模型，将多个细分领域的专家模型组合成一个超级模型。早在2022年，Google就提出了MoE大模型Switch Transformer，使得其凭借1571B的参数量，也能在预训练任务上显示出比T5-XXL（11B）模型更高的样本效率（更准确，且计算成本没有显著提升）。

不仅如此，美国知名骇客George Hotz与PyTorch的创建者Soumith Chintala也先后表示，GPT4也是由8个220B参数量的MoE模型组成的1760B参数大模型，算不严格意义的"一个"万亿模型。

然而，这种8合一的思路，也导致了MoE的设计与每次升级迭代都需要花费巨大的资源。类似日常爬山，爬一座8848m高的珠穆朗玛峰的难度，远不是爬8次海拔1108米的雁荡山耗费体力的加和。因此，有能力参与的，往往都是8项全能其具备绝对领先优势的AI技术龙头。

于是，随着MoE逐渐成为寡头的游戏，一种新的技术思路走上台前——连横派的CoE。

CoE（Collaboration-of-Experts），即专家协同模型。通俗来说，一个入口同时接入多家模型，而入口会在模型分析之前，增加一个意图识别环节，然后才进行任务派解，决定任务是由哪款模型起作用，或者哪几款模型打配合。相对于MoE，CoE最大的优势是，各个专家模型之间可以彼此协同工作，但不存在绑定关系。

相比MoE，CoE的每个专家模型之间有更多的协同，更精准的分工，并且更灵活、更专业细分。这一思路，相比MoE，具有更高的效率，和更低的API接口和Token使用成本。

那么，MoE与CoE哪种路线会更占上风？

另一种解题思路：什么决定了用户的智能体验？

当周鸿祎一袭红衣转型AI教父时，360内部，关于如何CoE与MoE路线的论证，也在最近一年多时间里反复上演。

如果走MoE，360多年技术的积累，足以支撑打完这场仗。

而走CoE，就意味着与更多的大模型厂家同分一杯羹。

"三个臭皮匠，顶一个诸葛亮"给了360集团副总裁梁志辉启发，要将宝压在CoE上：

一家企业，哪怕做到Open AI式"8项全能"，依然不免存在短板。但如果将最优秀的大模型企业能力，通过CoE能力，则意味着优势互补与真正十八项全能的实现。

测评结果显示，基于360 CoE AI能力的AI助手Beta版，在引入360智脑在内的16家国内最强大模型集各家所长后，已在11个单项能力测试指标上超越GPT-4。

与此同时，即使将底层大模型能力"外包"，360依然能在CoE的浪潮中，找到自己的独家定位。

从产品层面看，360 CoE产品AI助手可以被分成两个部分：其中，语料积累与算法技术，主要依靠的是360智脑在内的16家国产大模型的接入，类似分工不同的特种兵；而360则充当指挥官的角色，通过意图识别模型，来实现对于用户意图更加精准的理解；通过任务分解和调度模型，实现了对于众多专家模型网络（100+LLM）、千亿规模知识中枢和200+第三方工具的智能调度，进而实现比MoE更高的灵活性和效率。

大模型架构之争：CoE与MoE的较量

大模型产业已经形成了独特的产业链

当暴力不再有奇迹，大模型正陷入技术的诅咒

大模型的T型车时刻：CoE or MoE？

另一种解题思路：什么决定了用户的智能体验？