震撼发布:Llama 3.1开源大模型引领全民AI新时代

使用16000个H100 GPU,基于1500亿个tokens进行训练。

01.405B开源模型对标GPT-4o,25家合作伙伴已就绪

Meta评估了超过150个基准数据集的性能,Llama 3.1 405B在常识、可操作性、数学、工具使用和多语言翻译等一系列任务中,可与GPT-4o、Claude 3.5 Sonnet和Gemini Ultra相媲美。

在现实场景中,Llama 3.1 405B进行了与人工评估的比较,其总体表现优于GPT-4o和Claude 3.5 Sonnet。

升级后的Llama 3.1 8B和70B模型,相比于同样参数大小的模型性能表现也更好,这些较小参数的模型支持相同的128K Tokens上下文窗口、多语言、改进的推理和最先进的工具使用,以支持实现更高级应用。

Meta更新了许可证,首次允许开发人员使用包括405B参数规模的Llama模型的输出来改进其他模型。

同时,Meta的开源生态进一步扩张,已经有超过25个企业推出了Llama 3.1新模型。

其中,亚马逊云科技、Databricks和英伟达正在推出全套服务,以支持开发人员微调和训练自己的模型。AI芯片创企Groq等为Meta此次发布的所有新模型构建了低延迟、低成本的推理服务。

同时这些模型将在亚马逊云科技、微软Azure、谷歌云、Oracle等主要云平台上提供服务。

Scale AI、戴尔、德勤等公司已准备好帮助企业采用Llama模型并使用自己的数据训练定制模型。

Llama 3.1 405B不仅是最强开源模型,还有望成为最强模型,开源和闭源的距离再次大大缩短。

02.完整优化训练堆栈,专注于让模型可扩展

为了能基于15万亿个Tokens进行模型训练,同时在合理时间内实现研究人员想要的效果,Meta对训练堆栈进行了完整优化。

在解决上述难题方面,Meta选择专注于保持模型开发过程可扩展并更直接的策略:

1、研究人员选择了标准仅解码器的Transformer模型架构进行小幅调整,而不是采用MoE混合专家模型,可以最大限度提高训练稳定性。

2、研究人员采用了迭代的后训练程序,每轮都使用监督微调和直接偏好优化。这使模型能够为每一轮创建最高质量的合成数据,并提高每项能力的性能。

与此前Llama系列模型相比,Meta改进了用于训练前和训练后的数据的数量和质量。这些改进包括为训练前数据开发更仔细的预处理和管理pipelines、开发更严格的质量保证,以及训练后数据的过滤方法。

正如大语言模型的Scaling Laws(规模定律)所预期的那样,Meta新旗舰模型优于使用相同策略训练的较小模型。Meta还使用405B参数的模型提高了其较小模型的训练质量。

同时,为了支持405B参数模型的大规模推理,研究人员将模型从BF16到FP8进行了量化,有效降低了所需的计算要求,并允许模型在单个服务器节点内运行。

在指令和聊天微调方面,研究人员通过在预训练模型之上进行几轮对齐以生成最终模型,每一轮都涉及监督微调(SFT)、拒绝采样(RS)和直接偏好优化(DPO),其使用合成数据生成来生成绝大多数SFT示例以生成所有功能中更高质量的合成数据。

此外,Meta采取了多种数据处理技术以将这些合成数据过滤到最高质量,这使新模型能够跨功能扩展微调数据量。

在数据方面,研究人员还对数据进行了仔细平衡以生成具有所有功能的高质量模型。例如,在短上下文基准上保证模型质量,使其能扩展到128K上下文长度。

此外,Meta还宣布推出一个整体的Llama系统。该系统除了涵盖Llama模型,还涉及多个组件协调及外部工具调用,以此助开发者开发比基础模型更强的定制产品。

Llama系统将涵盖一系列新组件,包括开源新的安全工具如Llama Guard 3(多语言安全模型)和Prompt Guard(即时注入过滤器)。为了让分散的组件联接起来,Meta还发布了对Llama Stack API的评论请求,这是一个标准接口,以此第三方项目更轻松地利用Llama模型。

对于普通开发者来说,使用405B规模的模型仍是一项挑战,这需要大量的计算资源和专业知识。

基于Llama系统,生成式AI开发不仅仅是提示模型,每个人都应该可以利用405B模型完成更多的任务,包括实时和批量推理、监督微调、针对特定应用评估模型、持续预训练、检索增强生成(RAG)、函数调用、合成数据生成等。

这是Meta迄今为止推出的最大模型,未来将推出更多设备友好的尺寸、更多模式以及在Agent层面的更新。

03.405B大模型爆改Meta AI,Quest智能语音助手升级

现在,Meta旗下的多个终端,比如WhatsApp和Meta AI聊天机器人中都开始使用Llama 3.1 405B。

Meta AI目前已支持七种新语言,本次Meta推出一批新的Meta AI创意工具,主要聚焦视觉生成、数学和编码等领域。

首先看看视觉生成,Meta AI推出"想象我(Imagine Me)"图像生成提示功能,支持用户在Meta AI聊天中输入"想象我"并添加提示,例如"想象我是皇室成员"或"想象我在一幅超现实主义绘画中",就可以生成图像并与朋友和家人分享。