Llama 3.1研发思路
如何决定参数规模
- 需考虑缩放定律、训练时间、GPU硬件限制等多种因素
- 不仅考虑Meta自身硬件,还要考虑整个AI社区的情况
- 量化技术的应用改变了推理和训练/微调成本的比重
- 在现有算力和限制条件下,找到了405B这个平衡点
- 目标是做出与GPT-4比肩的开源模型
重新审视缩放定律
- 传统缩放定律关注模型权重和训练量两个维度
- Chinchilla强调了训练数据token总量的重要性
- Meta选择增加训练token数和时长,让模型"过度训练"
- 这不符合Chinchilla定律,但可以获得更好的推理表现
模型架构
- 相比Llama 2架构变化不大,主要扩展了数据规模和质量
- 未来可能会有更多架构改进,不局限于Transformer
- 目前Transformer架构仍缺乏灵活性
- 正在探索MoE架构
关于合成数据
- 公开互联网上存在大量低质量文本
- 使用Llama作为分类器过滤高质量token
- Llama 3后训练完全使用从Llama 2获得的合成数据
- 看好合成数据的前景
LLM的评估与改进
- 针对基准分数进行后训练改进存在过拟合风险
- 语言模型评估是一个困难的问题
- 尝试了多种评估方法,如奖励模型、模型作为评判者等
- 多轮RLHF是一个比较模型的好方法
Llama 4与Agent
- Meta已于6月开始训练Llama 4模型
- 重点可能围绕agent技术
- 已在Toolformer等agent工具上进行了一些工作
- 优秀的指令模型是agent能力扩展的基础
- Meta发布的GAIA基准用于评估解决现实问题的能力
- agent的各种能力与模型的智力水平密切相关