"做大做强",还猛烈地卷起"做小做精"。
超越GPT-4已经不是唯一KPI,大模型进入争夺市场的关键博弈期,要打动用户,不能只靠晒技术实力,还要力证自家模型更具性价比——同等性能下模型更小,同等参数下性能更高更省钱。
事实上,这股"大模型反卷小型化"的技术风向,在去年下半年已经开始酝酿。
游戏规则的改变者是两家公司。一家是法国AI创企Mistral AI,去年9月用70亿参数大模型击败有130亿参数的Llama 2技惊四座,在开发者社区一战成名;一家是中国AI创企面壁智能,今年2月推出更加浓缩的端侧模型MiniCPM,用仅仅24亿参数实现了超过Llama 2 13B的性能。
两家创企都在开发者社区有口皆碑,多款模型登顶开源热榜。特别是从清华大学自然语言处理实验室孵化出的面壁智能,今年其多模态模型被美国顶级高校团队"套壳"引起轩然大波,面壁的原创性工作在国内外学术圈都得到认可,令国产开源AI模型扬眉吐气。
苹果也从去年开始研究能更好适配手机的端侧模型。一直走粗放式暴力扩张路线的OpenAI,倒是个相对令人意外的新入场者。上周推出轻量级模型GPT-4 mini,意味着大模型一哥主动走下"神坛",开始顺应业界趋势,试图用更廉价易得的模型来撬动更广泛的市场。
2024年,将是大模型"小型化"的关键之年!
一、大模型时代的"摩尔定律":高效才能可持续
当前大模型研发正陷入一种惯性:大力出奇迹。
2020年,OpenAI的一篇论文验证了模型表现与规模存在强相关。只要吞下更多的高质量数据,训出更大体量的模型,就能收获更高的性能。
沿着这种简单但奏效的路径,近两年全球掀起一场狂飙追击更大模型的疾速竞赛。这埋下了算法霸权的隐患,只有资金和算力充裕的团队,才具备长期参与竞赛的资本。
去年OpenAI CEO萨姆·阿尔特曼曾透露,训练GPT-4的成本至少有1亿美元。在尚未探出高利润商业模式的情况下,即便是财大气粗的科技大厂,也很难承受长期不计成本的投入。生态环境更无法容忍允许这种无底洞式的烧钱游戏。
顶尖大语言模型之间的性能差距正在肉眼可见地缩小。GPT-4虽然稳居第一,但与Claude 3 Opus、Gemini 1.5 Pro的基准测试分数之差并未断层。在一些能力上,百亿级大模型甚至能取得更出色的表现。模型大小已经不是影响性能的唯一决定性因素。
倒不是顶级大模型缺乏吸引力,实在是轻量级模型更有性价比。
下图是AI工程师Karina Ngugen今年3月底在社交平台上分享的一张AI推理成本趋势图,清晰绘制出了从2022年以来大语言模型在MMLU基准上的性能与其成本的关系:随着时间推移,语言模型获得更高的MMLU精度分数,相关成本大幅下降。新模型的准确率达到80%左右,而成本能比几年前低几个数量级。
世界变化相当之快,这几个月又有一大波经济高效的轻量级模型上新。
"大语言模型尺寸的竞争正在加剧——倒退!"AI技术大神Andrej Karpathy打赌:"我们将看到一些非常非常小的模型'思考'的非常好且可靠。"
模型能力÷参与计算的模型参数=知识密度,这个衡量维度可以用来代表同等参数规模的模型能具备强的智能。2020年6月发布的GPT-3大模型有1750亿个参数。今年2月, 实现同等性能的面壁智能MiniCPM-2.4B模型,参数规模已经降到24亿,相当于知识密度提高了约86倍。
根据这些趋势,清华大学计算机系长聘副教授、面壁智能首席科学家刘知远最近提出了一个有意思的观点:大模型时代有自己的"摩尔定律"。
具体而言,随着数据-算力-算法协同发展,大模型知识密度持续增强,平均每8个月翻一番。
通过提高芯片上的电路密度,推动实现同等算力的计算设备从好几间屋子才装得下的超级计算机进化到能揣进口袋里的手机,接下来大模型的发展也会遵循类似的规律。刘知远将他提出的指导性规律命名为"面壁定律"。
以此趋势下去,训练一个千亿参数模型,它所具备的能力,8个月后500亿个参数的模型就能实现,再过8个月只需250亿个参数就能做到。
二、兵分多路:闭源价格战热火朝天,开源中美欧三足鼎立
目前进入大模型轻量化竞赛的玩家兵分多路。
OpenAI、谷歌、Anthropic都走了闭源路线。它们的GPT-4、Claude 3.5 Sonnet、Gemini 1.5 Pro等旗舰模型把控着最强性能档,这些模型的参数规模高达千亿级乃至万亿级。
轻量级模型则是其旗舰模型的精简版。在上周OpenAI上新后,GPT-4 mini凭借超过Gemini Flash和Claude Haiku的性能,成为市场上10B以下最具性价比的选项,To C取代GPT-3.5供用户免费使用,ToB把API价格猛降一把,让采用大模型技术的门槛变得更低。
《机器学习工程》作者Andriy Burkov根据价格推断GPT-4 mini的参数规格在7B左右。面壁智能CEO李大海推测GPT-4 mini是一个专家数量较多的"宽MoE"模型,而非端侧模型,以一个高性价比云端模型的定位,来极大降低大模型落地产业成本。
开源轻量级模型的阵营则更为庞大,中美欧各有代表玩家。
国内阿里、面壁智能、商汤和上海人工智能实验室等均已开源一些轻量级模型。其中阿里Qwen系列模型是轻量级模型基准。