不是大模型用不起,而是小模型更有性价比
在 AI 领域的广阔天地里,小模型始终有着自己的传奇。
放眼国际,去年一鸣惊人的 Mistral 7B 一经发布就被誉为"最佳 7B 模型",在多项评估基准中均超越了 13B 参数的 Llama 2,并在推理、数学和代码生成方面胜过了 Llama 34B。
今年微软也开源了最强小参数大模型 phi-3-mini,尽管参数量仅有 3.8B,但性能评测结果远超同等规模水平,甚至可与 GPT-3.5、Claude-3 Sonnet 等更大模型相媲美。
国内方面,面壁智能在 2 月初推出仅有 2B 参数量级的端侧语言模型面壁 MiniCPM,以更小的规模实现更强的性能,超越法国当红大模型 Mistral-7B,被称为"小钢炮"。
不久前,仅有 8B 参数的 MiniCPM-Llama3-V2.5 在多模态综合性能、OCR 能力等方面也超越了 GPT-4V 和 Gemini Pro 等更大模型,因此还遭到了斯坦福大学 AI 团队的抄袭。
直到上周,OpenAI 深夜发布被其描述为"功能最强、性价比最高的小参数模型"——GPT-4o mini,以强势姿态将人们的注意力重新拉回小模型领域。
自从 OpenAI 将全世界带入生成式 AI 的想象以来,从竞争长上下文、到竞争参数、智能体,再到如今的价格战,国内外的发展始终围绕一个逻辑——通过迈向商业化从而留在竞争中。
因此,在众多舆论中,最引人注目的莫过于降价的 OpenAI 似乎也要加入价格战了。
可能很多人对 GPT-4o mini 的价格没有清晰的概念。GPT-4o mini 每 100 万输入 token 价格为 15 美分,每 100 万输出 token 价格为 60 美分,比 GPT-3.5 Turbo 便宜超过 60%。
换句话说,用 GPT-4o mini 生成一本 2500 页的书,只需要 60 美分。
OpenAI CEO Sam Altman 也在 X 上感慨,两年前最强的模型与 GPT-4o mini 相比,不仅性能差距巨大,而且使用成本高达现在的 100 倍。
在大模型价格战愈发激烈的同时,一些高效经济的开源小模型也更容易受到市场的关注,毕竟不是大模型用不起,而是小模型更有性价比。
一方面,在全球 GPU 被抢购甚至缺货的情况下,训练和部署成本较低的开源小模型也足以让其逐渐占据优势。
例如,面壁智能推出的 MiniCPM,凭借其较小的参数能够实现推理成本的大幅下降,甚至可以实现 CPU 推理,只需一台机器持续参数训练,一张显卡进行参数微调,同时也有持续改进的成本空间。
如果你是成熟的开发者,你甚至可以用自己搭建小模型的方式去训练一个法律领域的垂直模型,其推理成本可能仅为使用大型模型微调的千分之一。
一些端侧"小模型"的应用落地让不少厂商能看到率先盈利的曙光。比如面壁智能助力深圳市中级人民法院上线运行人工智能辅助审判系统,向市场证明了技术的价值。
当然,更准确地说,我们将开始看到的变化不是从大模型到小模型的转变,而是从单一类别的模型转向一个模型组合的转变,而选择合适的模型取决于组织的具体需求、任务的复杂性和可用资源。
另一方面,小模型在移动设备、嵌入式系统或低功耗环境中更易于部署和集成。
小模型的参数规模相对较小,相比大型模型,其对计算资源(如 AI 算力、内存等)的需求较低,能够在资源受限的端侧设备上更流畅地运行。并且,端侧设备通常对能耗、发热等问题有着更为极致的要求,经过特别设计的小模型可以更好地适配端侧设备的限制。
荣耀 CEO 赵明说过,端侧由于 AI 算力问题,参数可能在 1B 到 10B 之间,网络大模型云计算的能力可以做到 100-1000 亿,甚至更高,这种能力就是两者的差距。
手机是在一个很有限的空间内,对吧?它是在有限的电池,有限的散热和有限存储环境下支持 70 亿,你就想象一下其中这么多约束条件,它一定是最难的。
我们也曾揭秘负责运作苹果智能的幕后功臣,其中经过微调的 3B 小模型专用于摘要、润色等任务,在经过适配器的加持后,能力优于 Gemma-7B,适合在手机终端运行。
所以我们看到,前 OpenAI 大神 Andrej Karpathy 最近也提出了一个判断,模型尺寸的竞争将会"反向内卷",不是越来越大,而是比谁更小更灵活。
小模型凭什么以小胜大
Andrej Karpathy 的预测并非无的放矢。
在这个数据为中心的时代,模型正迅速变得更加庞大和复杂,经过海量数据训练出来的超大模型(如 GPT-4),大部分其实是用来记住大量的无关紧要细节的,也就是死记硬背资料。
然而,经过微调的模型在特定任务上甚至"以小胜大",好用程度媲美不少"超大模型"。
Hugging Face CEO Clem Delangue 也曾建议,多达 99% 的使用案例可以通过使用小模型来解决,并预测 2024 年将是小型语言模型的一年。
究其原因之前,我们得先科普一些知识。
2020 年,OpenAI 在一篇论文中提出一个著名的定律:Scaling law,指的是随着模型大小的增加,其性能也会随之增加。随着 GPT-4 等模型的推出,Scaling law 的优势也逐渐显现出来。
AI 领域的研究者和工程师坚信,通过增加模型的参数数量,可以进一步提升模型的学习能力和泛化能力。就这样,我们见证模型规模从数十亿参数跃升至几千亿,甚至朝着万亿参数规模的模型攀登。
在 AI 的世界里,模型的规模并非衡量其智能的唯一标准。
相反,一个精巧设计的小型模型,通过优化算法、提升数据质量、采用先进的压缩技术,往往能够在特定任务上展现出与大型模型相媲美甚至更优的性能。
这种以小博大的策略,正成为 AI 领域的新趋势。 其中,提高数据质量是小模型以小胜大的方法之一。
Coalesce 的首席技术官兼联合创始人 Satish Jayanthi 曾这样形容数据对模型的作用:
如果 17 世纪就有 LLM,而我们问 ChatGPT 地球是圆的还是平的,它回答说地球是平的,那将是因为我们提供的数据让它相信这是事实。我们提供给 LLM 的数据以及我们的训练方式,将直接影响其输出。
为了产出高质量的结果,大型语言模型需要接受针对特定主题和领域的高质量、有针对性的数据训练。就像学生需要优质的教材来学习一样,LLM 也需要优质的数据源。