Meta正式发布了Llama 3.1,包含8B、70B和405B三个规模的模型,最大上下文长度提升到128k。主要特点包括:
-
405B版本是目前最大的开源模型之一,性能超越了现有顶级AI模型。
-
引入更长的上下文窗口(最长128K tokens),能处理更复杂的任务和对话。
-
支持多语言输入输出,增强了通用性和适用范围。
-
提高了推理能力,特别是在解决复杂数学问题和即时生成内容方面表现突出。
Meta表示,开源大语言模型性能落后于闭源模型的时代即将结束,Llama 3.1开启了开源引领的新时代。405B版本在性能上已可与GPT-4和Claude 3相媲美。
在模型架构方面,Llama 3.1在超过15万亿个token的数据上进行训练,使用了超过16000块H100 GPU。为保证稳定性和便捷性,采用了标准的仅解码器Transformer架构而非MoE架构。
研究团队实施了迭代的后训练方法,通过监督式微调和直接偏好优化来提升模型功能。同时探索使用405B模型作为小型模型的"教师模型"。
Meta还发布了包含多个示例应用和新组件的完整参考系统,如Llama Guard 3和Prompt Guard等。并提出了"Llama Stack"标准化接口,以简化工具链组件和应用程序的构建。
根据基准测试,405B版本在多项测试中与GPT-4等闭源模型相当或略胜一筹。8B和70B版本也显著优于同等规模的其他开源模型。