Meta科学家揭秘Llama 3.1训练过程,Llama 4开发启动

Meta研究员Thomas Scialom探讨Llama 3.1模型及其发展前景。

Llama 3.1研发思路

如何决定参数规模

  • 需考虑缩放定律、训练时间、GPU硬件限制等多种因素
  • 不仅考虑Meta自身硬件,还要考虑整个AI社区的情况
  • 量化技术的应用改变了推理和训练/微调成本的比重
  • 在现有算力和限制条件下,找到了405B这个平衡点
  • 目标是做出与GPT-4比肩的开源模型

重新审视缩放定律

  • 传统缩放定律关注模型权重和训练量两个维度
  • Chinchilla强调了训练数据token总量的重要性
  • Meta选择增加训练token数和时长,让模型"过度训练"
  • 这不符合Chinchilla定律,但可以获得更好的推理表现

模型架构

  • 相比Llama 2架构变化不大,主要扩展了数据规模和质量
  • 未来可能会有更多架构改进,不局限于Transformer
  • 目前Transformer架构仍缺乏灵活性
  • 正在探索MoE架构

关于合成数据

  • 公开互联网上存在大量低质量文本
  • 使用Llama作为分类器过滤高质量token
  • Llama 3后训练完全使用从Llama 2获得的合成数据
  • 看好合成数据的前景

LLM的评估与改进

  • 针对基准分数进行后训练改进存在过拟合风险
  • 语言模型评估是一个困难的问题
  • 尝试了多种评估方法,如奖励模型、模型作为评判者等
  • 多轮RLHF是一个比较模型的好方法

Llama 4与Agent

  • Meta已于6月开始训练Llama 4模型
  • 重点可能围绕agent技术
  • 已在Toolformer等agent工具上进行了一些工作
  • 优秀的指令模型是agent能力扩展的基础
  • Meta发布的GAIA基准用于评估解决现实问题的能力
  • agent的各种能力与模型的智力水平密切相关

原文链接