苹果公司以比其他公司更开放的方式进入了开源大型语言模型领域。他们发布了一个7B参数的模型,其性能可与Llama 3 8B相媲美,同时开源了整个训练过程和资源。
这一举动是在《自然》杂志编辑Elizabeth Gibney最近批评许多所谓的开源AI模型缺乏数据和训练方法透明度,无法满足真正的科学研究需求之后做出的。苹果的发布直接解决了这些问题。
NLP科学家和AutoAWQ创始人表示惊讶,指出苹果不仅发布了一个胜过Mistral 7B的模型,还开源了包括预训练数据集在内的所有内容。
一位社区成员强调了这次开源发布的重要性:
对于任何希望从头开始训练模型或微调现有模型的人来说,数据管理过程是必须研究的。
除了苹果的发布,Mistral AI上周与NVIDIA合作推出了一个12B参数的小型模型。HuggingFace创始人将其称为"小型模型周"。
苹果的新小型模型展示了令人印象深刻的能力:
- 使用2.5T个标记在开放数据集上训练的7B基础模型
- 主要是英语数据,上下文窗口为2048个标记
- 数据集包括DCLM-BASELINE、StarCoder和ProofPile2
- MMLU得分接近Llama 3 8B
- 使用PyTorch和OpenLM框架进行训练
研究团队引入了一个新的语言模型数据比较基准,称为DCLM。他们发现,使用机器学习模型自动从更大的数据集中过滤和选择高质量数据可能是构建高质量训练集的关键。
使用DCLM,他们设计了一个高质量数据集DCLM-BASELINE,从头开始训练7B参数的DCLM-7B模型。
DCLM-7B在MMLU基准测试中达到了64%的5-shot准确率,可与Mistral-7B-v0.3(63%)和Llama 3 8B(66%)相媲美。它还在53个自然语言理解任务中匹配了Llama 3 8B的平均性能,同时只需要1/6的计算量。
与其他类似规模的模型相比,DCLM-7B的MMLU得分超过了Mistral-7B,接近Llama 3 8B。
为了测试新数据集的有效性,一位行业专业人士使用llm.c训练了GPT-2 1.5B,比较了DCLM-Baseline和FineWeb-Edu。结果显示DCLM-Baseline获得了更高的平均分数,在ARC、HellaSwag和MMLU等任务上表现更好。
小型模型的趋势正在gaining momentum:
- HuggingFace推出了"SmolLM"系列小型模型(135M、360M、1.7B)
- OpenAI发布了GPT-4o mini,以较低成本接近GPT-4的能力
- Mistral AI和NVIDIA发布了12B参数的Mistral NeMo模型
向小型模型的转变是由于它们能够在显著降低成本的同时实现与大型模型相当的性能。正如smol AI创始人所展示的,像GPT-4o mini这样的模型与大型替代品相比,提供了更低的整体定价。