Llama 3.1: 开源模型超越闭源巅峰,AI格局将重塑?

Meta创始人扎克伯格坚定承诺全面推进开源战略。

Meta正式发布了Llama 3.1,包含8B、70B和405B三个规模的模型,最大上下文长度提升到128k。主要特点包括:

  1. 405B版本是目前最大的开源模型之一,性能超越了现有顶级AI模型。

  2. 引入更长的上下文窗口(最长128K tokens),能处理更复杂的任务和对话。

  3. 支持多语言输入输出,增强了通用性和适用范围。

  4. 提高了推理能力,特别是在解决复杂数学问题和即时生成内容方面表现突出。

Meta表示,开源大语言模型性能落后于闭源模型的时代即将结束,Llama 3.1开启了开源引领的新时代。405B版本在性能上已可与GPT-4和Claude 3相媲美。

在模型架构方面,Llama 3.1在超过15万亿个token的数据上进行训练,使用了超过16000块H100 GPU。为保证稳定性和便捷性,采用了标准的仅解码器Transformer架构而非MoE架构。

研究团队实施了迭代的后训练方法,通过监督式微调和直接偏好优化来提升模型功能。同时探索使用405B模型作为小型模型的"教师模型"。

Meta还发布了包含多个示例应用和新组件的完整参考系统,如Llama Guard 3和Prompt Guard等。并提出了"Llama Stack"标准化接口,以简化工具链组件和应用程序的构建。

根据基准测试,405B版本在多项测试中与GPT-4等闭源模型相当或略胜一筹。8B和70B版本也显著优于同等规模的其他开源模型。

Meta官方博客文章链接

Mark Zuckerberg关于开源AI的文章链接