Meta、加州大學柏克萊分校和紐約大學的研究人員提出了元獎勵語言模型的方法,旨在實現AI模型的「超級對齊」。這種方法讓AI模型同時扮演actor、judge和meta-judge三個角色,通過自我評價和改進來提升性能,無需依賴人類標註數據。
具體來說,元獎勵方法包含以下步驟:
- Actor生成對給定提示的回應
- Judge對回應進行評價和打分
- Meta-judge評估judge的打分質量
- 基於上述結果,使用DPO方法優化模型
為了解決長度偏好問題,研究人員引入了長度控制機制。他們還詳細設計了judge偏好數據的創建方法,包括使用meta-judge提示模板、考慮位置偏好等。
在評估實驗中,研究人員使用Llama-3-8B-Instruct作為種子模型,在EFT數據集上進行初始微調。元獎勵迭代使用了2萬個由Llama-2-70B-Chat生成的提示,每次迭代抽取5000個,總共迭代4次。
實驗結果表明,元獎勵方法顯著提升了模型性能。例如,在AlpacaEval 2上的勝率從22.9%增至39.4%,超過了GPT-4;在Arena-Hard上則從20.6%提升至29.1%。
這項研究進一步證明,語言模型有潛力通過自我改進來提升性能,減少對人類監督的依賴。它為實現AI系統的「超級對齊」提供了新的思路和方法。