Llama 3.1据报道已经泄露,包括8B、70B和405B参数模型的基准测试结果。即使是70B版本在几项基准测试中也超过了GPT-4o,这标志着开源模型首次在多项基准测试中超越了GPT-4o和Claude Sonnet 3.5等闭源模型。
泄露的模型卡中的关键细节:
- 在15T+个公开可用的数据令牌上训练,数据截至2023年12月
- 微调数据包括公开的指令数据集和1500万个合成样本
- 支持英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语
据报道,这些模型具有128k的上下文长度,并使用分组查询注意力机制以提高推理可扩展性。
预期用途包括多语言商业应用和研究。经指令微调的模型针对助手式聊天进行了优化,而预训练模型可以适应各种自然语言生成任务。
训练基础设施:
- 自定义训练库和Meta的GPU集群
- 在H100-80GB硬件上使用39.3M GPU小时
- 估计11,390吨二氧化碳当量排放(由于使用可再生能源,基于市场的排放为0吨)
报告了各种任务的基准测试分数,Llama 3.1模型在许多开源和闭源聊天模型中表现出色。
安全考虑:
- 多管齐下的数据收集方法,结合人工生成和合成数据
- 基于LLM的分类器用于质量控制
- 注重减少模型拒绝和拒绝语气
- 将对抗性提示纳入安全数据
- 旨在作为具有额外安全保障的更大AI系统的一部分进行部署
开发人员在构建代理系统时应实施系统级安全措施,特别是在利用新功能(如更长的上下文窗口、多语言能力和第三方工具集成)时。
[省略了对参考论文和来源的链接]