Meta发布了Llama 3.1模型,包含8B、70B和405B三个尺寸版本。主要特点如下:
- 最大上下文长度提升到128K
- 支持多语言
- 代码生成性能优秀
- 具有复杂的推理能力
从基准测试结果来看:
- Llama 3.1 405B超过了GPT-4 0125,与GPT-4o、Claude 3.5互有胜负
- Llama 3.1 8B性能超过Gemma 2 9B 1T和Mistral 7B Instruct
- Llama 3.1 70B性能超过GPT-3.5 Turbo
Llama 3.1 405B的训练细节:
- 使用超过15万亿个token进行训练
- 在超过16000个H100 GPU上训练
- 采用迭代后训练程序,结合监督微调和直接偏好优化
- 改进了预训练和后训练数据的数量和质量
- 从16位精度量化到8位精度,减少计算资源需求
其他亮点:
- 提供开放/免费的模型权重和代码
- 许可证允许用户进行微调、模型蒸馏和任意部署
- 提供Llama Stack API,便于集成使用
- 支持协调多个组件,包括调用外部工具
Meta不再禁止用Llama 3来改进其他模型,体现了更开放的态度。这次发布标志着开源大模型在性能上首次追平闭源大模型,开启了由开源引领的新时代。