Llama 3.1 405B: 超越GPT-4的开源AI巨擘引领新纪元

Meta 刚刚按计划推出了最新版本的 Llama 模型——Llama 3.1。

Meta发布了Llama 3.1模型,包含8B、70B和405B三个尺寸版本。主要特点如下:

  • 最大上下文长度提升到128K
  • 支持多语言
  • 代码生成性能优秀
  • 具有复杂的推理能力

从基准测试结果来看:

  • Llama 3.1 405B超过了GPT-4 0125,与GPT-4o、Claude 3.5互有胜负
  • Llama 3.1 8B性能超过Gemma 2 9B 1T和Mistral 7B Instruct
  • Llama 3.1 70B性能超过GPT-3.5 Turbo

Llama 3.1 405B的训练细节:

  • 使用超过15万亿个token进行训练
  • 在超过16000个H100 GPU上训练
  • 采用迭代后训练程序,结合监督微调和直接偏好优化
  • 改进了预训练和后训练数据的数量和质量
  • 从16位精度量化到8位精度,减少计算资源需求

其他亮点:

  • 提供开放/免费的模型权重和代码
  • 许可证允许用户进行微调、模型蒸馏和任意部署
  • 提供Llama Stack API,便于集成使用
  • 支持协调多个组件,包括调用外部工具

Meta不再禁止用Llama 3来改进其他模型,体现了更开放的态度。这次发布标志着开源大模型在性能上首次追平闭源大模型,开启了由开源引领的新时代。

模型下载地址

92页论文训练报告