开源AI新霸主：Llama 3.1泄露超越GPT-4

Llama 3.1系列，明天发布

根据泄露的模型卡片，Llama 3.1将于23日发布。

许可证为"自定义商业许可"和"Llama 3.1社区许可"。

具体来说，Llama 3.1系列多语言大型语言模型是一组预训练和指令微调的生成模型，包括8B、70B和405B参数规模。

经指令微调的Llama 3.1纯文本模型（8B、70B、405B）针对多语言对话用例进行了优化。

除英语外，它还支持德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语等7种语言。

据介绍，Llama 3.1的新功能包括更长的上下文、支持多语言输入和输出，以及与开发者和第三方工具的集成。

GitHub上的一张基准图表（现已404）显示了Llama 3.1在基准测试中的出色表现。

具体而言，在预训练模型的基准评估中，Llama 3.1 405B在通用任务、知识推理和阅读理解方面创下了新纪录。

在MMLU和SQuAD子基准测试中，改进最为显著。

同时，Llama 3.1的8B和70B参数版本与Llama 3相比略有改进。然而，在某些指标上，70B Llama 3.1的表现仍不如其前身。

此外，在指令微调模型中，Llama 3.1 405B明显强于预训练模型。它在推理、编码、数学、工具使用和多语言基准测试中显著优于微调的8B和70B版本。

Llama 3.1 8B和70B微调模型在多项能力任务中也表现出显著的性能改进。

一些网友汇编了其他领先模型的基准测试，通过比较显示Claude 3.5 Sonnet在所有基准测试中都是冠军。

Llama 3.1 405B的微调版本仅在MMLU Pro数学基准测试中表现最佳，以73.3%的得分击败所有大型模型。

此外，405B在GPQA（研究生水平专业知识和推理）、数学、DROP（阅读理解）、MGSM（多语言数学）、HumanEval（编程）和BBH（知识评估）基准测试中与GPT-4o不相上下。

而且，405B显著优于最新的GPT-4o mini模型。

Llama 3.1是一个使用优化的Transformer架构的自回归语言模型。调整后的版本使用SFT和RLHF来与人类安全偏好保持一致。

对于Llama 3.1系列模型，token数量仅指预训练数据。

所有模型版本都使用分组查询注意力（GQA）来提高推理可扩展性。

与Llama 3一样，Llama 3.1在大约15万亿个来自公开来源的token上进行了预训练。

微调数据包括公开可用的指令数据集，以及超过2500万个合成样本，预训练数据截止到2023年12月。

Llama 3.1支持在多语言环境中进行商业和研究使用。

经指令微调的纯文本模型适用于聊天助手，而预训练模型可以适应各种自然语言生成任务。Llama 3.1模型集合还支持使用其模型输出来改进其他模型，包括合成数据生成和模型蒸馏。

违反法律法规、使用政策和Llama 3.1社区许可的使用，或超出支持语言范围的使用，均不在使用范围内。

团队强调，Llama 3.1在8种支持语言之外的更广泛语言集上进行了训练。开发者可以对其进行微调以用于其他语言，前提是遵守社区许可等政策并确保安全负责的使用。

对于预训练，Meta使用了自定义训练库、Meta的自定义GPU集群和生产基础设施。微调、注释和评估也在生产基础设施上进行。

训练累计使用了3930万GPU小时的计算时间，硬件类型为H100-80GB（700W TDP）。