OpenAI引发小型模型激烈竞争,苹果DCLM横空出世,性能全面超越Mistral 7B并完全开源

小型人工智能模型的竞争日益激烈。各大科技公司和初创企业纷纷进军这一领域,争相推出自己的轻量级AI解决方案。这场激烈的竞争不仅涉及技术创新,还关乎市场份额和商业应用。随着竞争加剧,我们可能会看到更多高效、低成本的AI产品面世,为各行各业带来新的机遇。

小型模型时代已经到来,OpenAI、Mistral AI、HuggingFace 以及现在的苹果等主要参与者都发布了紧凑型语言模型。

苹果通过其新的 DCLM(数据中心语言模型)系列进入了小型模型领域,该系列包括 70 亿和 14 亿参数版本。70 亿参数模型的表现优于 Mistral-7B,并接近 Llama 3 和 Gemma 的能力。

据苹果机器学习研究员 Vaishaal Shankar 表示,DCLM 是迄今为止表现最好的"真正开源"模型,其权重、训练代码和开放数据集都公开可用。这种完全开放的方法赢得了 AI 社区的赞誉。

DCLM-7B 模型使用仅解码器架构,在从 4 万亿个标记数据集中过滤得到的 2.5 万亿个标记上进行训练。它的上下文长度为 2048 个标记。性能评估显示,它在多个基准测试中优于同等规模的其他开放数据模型。

虽然 DCLM-7B 的性能与 Mistral-7B 和 Gemma 8B 等模型相当,但它仍落后于一些闭源数据模型,如 Phi-3。然而,研究人员发现,通过扩展训练数据和上下文长度可以进一步改进。

DCLM 的 14 亿参数版本在其规模上表现特别强劲,在某些指标上优于 SmolLM、Qwen-1.5B 和 Phi-1.5B 等模型。

DCLM 模型基于 DataComp 基准构建,该基准侧重于精选高质量训练数据,而不仅仅是扩大模型规模。这与许多科技巨头越来越重视训练数据而非模型架构的趋势相一致。

虽然大型语言模型继续发展,但主要 AI 实验室对更小、更高效的模型越来越感兴趣。苹果以完全开源模型进入这一领域,可能有助于加速紧凑而强大的语言模型的进展。