开源AI新霸主:Llama 3.1泄露超越GPT-4

Meta旗下的Llama 3.1模型再次遭遇提前泄露,引发开发者社区热议。此次泄露的最大规模模型达405B参数,同时8B和70B版本也有所升级。整个模型套件总容量约820GB。初步基准测试结果令人惊叹,相关下载链接在网上广泛传播。

Llama 3.1系列,明天发布

根据泄露的模型卡片,Llama 3.1将于23日发布。

许可证为"自定义商业许可"和"Llama 3.1社区许可"。

具体来说,Llama 3.1系列多语言大型语言模型是一组预训练和指令微调的生成模型,包括8B、70B和405B参数规模。

经指令微调的Llama 3.1纯文本模型(8B、70B、405B)针对多语言对话用例进行了优化。

除英语外,它还支持德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语等7种语言。

据介绍,Llama 3.1的新功能包括更长的上下文、支持多语言输入和输出,以及与开发者和第三方工具的集成。

基准测试

GitHub上的一张基准图表(现已404)显示了Llama 3.1在基准测试中的出色表现。

具体而言,在预训练模型的基准评估中,Llama 3.1 405B在通用任务、知识推理和阅读理解方面创下了新纪录。

在MMLU和SQuAD子基准测试中,改进最为显著。

同时,Llama 3.1的8B和70B参数版本与Llama 3相比略有改进。然而,在某些指标上,70B Llama 3.1的表现仍不如其前身。

此外,在指令微调模型中,Llama 3.1 405B明显强于预训练模型。它在推理、编码、数学、工具使用和多语言基准测试中显著优于微调的8B和70B版本。

Llama 3.1 8B和70B微调模型在多项能力任务中也表现出显著的性能改进。

一些网友汇编了其他领先模型的基准测试,通过比较显示Claude 3.5 Sonnet在所有基准测试中都是冠军。

Llama 3.1 405B的微调版本仅在MMLU Pro数学基准测试中表现最佳,以73.3%的得分击败所有大型模型。

此外,405B在GPQA(研究生水平专业知识和推理)、数学、DROP(阅读理解)、MGSM(多语言数学)、HumanEval(编程)和BBH(知识评估)基准测试中与GPT-4o不相上下。

而且,405B显著优于最新的GPT-4o mini模型。

Llama 3.1是一个使用优化的Transformer架构的自回归语言模型。调整后的版本使用SFT和RLHF来与人类安全偏好保持一致。

对于Llama 3.1系列模型,token数量仅指预训练数据。

所有模型版本都使用分组查询注意力(GQA)来提高推理可扩展性。

15T Token训练数据

与Llama 3一样,Llama 3.1在大约15万亿个来自公开来源的token上进行了预训练。

微调数据包括公开可用的指令数据集,以及超过2500万个合成样本,预训练数据截止到2023年12月。

可用于商业和研究用途

Llama 3.1支持在多语言环境中进行商业和研究使用。

经指令微调的纯文本模型适用于聊天助手,而预训练模型可以适应各种自然语言生成任务。Llama 3.1模型集合还支持使用其模型输出来改进其他模型,包括合成数据生成和模型蒸馏。

违反法律法规、使用政策和Llama 3.1社区许可的使用,或超出支持语言范围的使用,均不在使用范围内。

团队强调,Llama 3.1在8种支持语言之外的更广泛语言集上进行了训练。开发者可以对其进行微调以用于其他语言,前提是遵守社区许可等政策并确保安全负责的使用。

3930万GPU小时的训练

对于预训练,Meta使用了自定义训练库、Meta的自定义GPU集群和生产基础设施。微调、注释和评估也在生产基础设施上进行。

训练累计使用了3930万GPU小时的计算时间,硬件类型为H100-80GB(700W TDP)。

训练时间是训练每个模型所需的总GPU时间,功耗是每个GPU设备的峰值功率容量,根据功率使用效率进行调整。