小型模型时代已经到来,OpenAI、Mistral AI、HuggingFace 以及现在的苹果等主要参与者都发布了紧凑型语言模型。
苹果通过其新的 DCLM(数据中心语言模型)系列进入了小型模型领域,该系列包括 70 亿和 14 亿参数版本。70 亿参数模型的表现优于 Mistral-7B,并接近 Llama 3 和 Gemma 的能力。
据苹果机器学习研究员 Vaishaal Shankar 表示,DCLM 是迄今为止表现最好的"真正开源"模型,其权重、训练代码和开放数据集都公开可用。这种完全开放的方法赢得了 AI 社区的赞誉。
DCLM-7B 模型使用仅解码器架构,在从 4 万亿个标记数据集中过滤得到的 2.5 万亿个标记上进行训练。它的上下文长度为 2048 个标记。性能评估显示,它在多个基准测试中优于同等规模的其他开放数据模型。
虽然 DCLM-7B 的性能与 Mistral-7B 和 Gemma 8B 等模型相当,但它仍落后于一些闭源数据模型,如 Phi-3。然而,研究人员发现,通过扩展训练数据和上下文长度可以进一步改进。
DCLM 的 14 亿参数版本在其规模上表现特别强劲,在某些指标上优于 SmolLM、Qwen-1.5B 和 Phi-1.5B 等模型。
DCLM 模型基于 DataComp 基准构建,该基准侧重于精选高质量训练数据,而不仅仅是扩大模型规模。这与许多科技巨头越来越重视训练数据而非模型架构的趋势相一致。
虽然大型语言模型继续发展,但主要 AI 实验室对更小、更高效的模型越来越感兴趣。苹果以完全开源模型进入这一领域,可能有助于加速紧凑而强大的语言模型的进展。