Meta、加州大学伯克利分校和纽约大学的研究人员提出了元奖励语言模型的方法,旨在实现AI模型的"超级对齐"。这种方法让AI模型同时扮演演员、评判和元评判三个角色,通过自我评价和改进来提升性能,无需依赖人类标注数据。
具体来说,元奖励方法包含以下步骤:
- 演员生成对给定提示的响应
- 评判对响应进行评价和打分
- 元评判评估评判的打分质量
- 基于上述结果,使用DPO方法优化模型
为了解决长度偏好问题,研究人员引入了长度控制机制。他们还详细设计了评判偏好数据的创建方法,包括使用元评判提示模板、考虑位置偏好等。
在评估实验中,研究人员使用Llama-3-8B-Instruct作为种子模型,在EFT数据集上进行初始微调。元奖励迭代使用了2万个由Llama-2-70B-Chat生成的提示,每次迭代抽取5000个,总共迭代4次。
实验结果表明,元奖励方法显著提升了模型性能。例如,在AlpacaEval 2上的胜率从22.9%增至39.4%,超过了GPT-4;在Arena-Hard上则从20.6%提升至29.1%。
这项研究进一步证明,语言模型有潜力通过自我改进来提升性能,减少对人类监督的依赖。它为实现AI系统的"超级对齐"提供了新的思路和方法。