新的标准Pipeline
人类偏好数据
最初的RLHF管道重点是人类数据,包括用于指令微调的数据和任务完成度的偏好数据。这类数据成本高昂且被严格保护。
现在,唯一用到人类数据的方面就是偏好数据。Meta可能在偏好数据上花费了1000-2000万美元或更多。
对开放社区而言,一个挑战是弄清这类数据中的人为干预程度,能否用LLM-as-a-Judge或奖励模型等方法代替。
扩展RLHF
Llama 3的对齐负责人Thomas Scialom表示,RLHF的可扩展性要高得多,成本更低、更容易操作,并且通常会带来更好的性能。
产业界仅将指令微调(IFT)作为扩展RLHF的起点。SFT数据主要关注以前模型未能覆盖的特定领域,然后在此基础上扩展RLHF。
RLHF是一个迭代过程,模型的生成过程可以让它继续改进。Llama 3.1进行了6轮偏好数据的训练,Llama 2是5轮,Nemotron是4轮,之前还有多轮指令微调。
进行多轮迭代可能主要出于可行性考量:
- 数据从注释公司分批传送到实验室
- 进行多轮小规模的训练可以降低最终产品交付的风险
类似的迭代RLHF方法可以追溯到Anthropic提出的"宪法人工智能",但开源社区似乎没有大规模复现这个结果。
目前,学术界正在关注"在线DPO训练",这在方向上是相似的,但对各轮之间数据没有那么关注。一旦实现流程自动化,在线DPO将成为未来。
各个团队对后训练阶段的算法选择不应该如此一成不变。DPO和PPO各有优劣,前者更容易扩展,但PPO启发的方法(如在线RL)具有更高的性能上限。
目前这些方案主要出于简洁性考量,因为这些团队仍然相对较新并且正在构建模块化系统。
合成数据
新的RLHF循环中,很重要的一环是在大多数任务上超越人类能力的合成指令数据。
如果可以让模型有一点点提升、生成更好的指令,那就"重新开始",更新检查点。
Meta在论文中明确表示,他们"使用405B模型来提高我们较小模型的后训练质量";谷歌通过蒸馏出Gemini Flash来做到这一点,但实际上大多数前沿模型可能都包含一些类似步骤。
据传OpenAI正在使用50万亿token的数据训练下一代模型,其中大部分为合成数据。去年有传言称Anthropic拥有"预训练规模的宪法AI语料库",现在看来这也很合理。
这些AI公司意识到合成数据的重要性应该是在12~18个月之前,当他们不再使用模型输出进行自我迭代训练的时候。但Meta不一样,因为受益于其他更好的开放模型。
从当今的后训练可以看出,合成数据造成模型崩溃的问题被过分夸大了。只有在人为设置的环境中,丢弃原始数据、只留下生成的新数据时,才会发生模型崩溃。