新的標準Pipeline
人類偏好數據
最初的RLHF管道重點是人類數據,包括用於指令微調的數據和任務完成度的偏好數據。這類數據成本高昂且被嚴格保護。
現在,唯一用到人類數據的方面就是偏好數據。Meta可能在偏好數據上花費了10M-20M美元或更多。
對開放社群而言,一個挑戰是弄清這類數據中的人為干預程度,能否用LLM-as-a-Judge或獎勵模型等方法代替。
擴展RLHF
Llama 3的對齊負責人Thomas Scialom表示,RLHF的可擴展性要高得多,成本更低、更容易操作,並且通常會帶來更好的性能。
產業界僅將指令微調(IFT)作為擴展RLHF的起點。SFT數據主要關注以前模型未能覆蓋的特定領域,然後在此基礎上擴展RLHF。
RLHF是一個迭代過程,模型的生成過程可以讓它繼續改進。Llama 3.1進行了6輪偏好數據的訓練,Llama 2是5輪,Nemotron是4輪,之前還有多輪指令微調。
進行多輪迭代可能主要出於可行性考量:
- 數據從註釋公司分批傳送到實驗室
- 進行多輪小規模的訓練可以降低最終產品交付的風險
類似的迭代RLHF方法可以追溯到Anthropic提出的"憲法人工智能",但開源社群似乎沒有大規模複現這個結果。
目前,學術界正在關注"線上DPO訓練",這在方向上是相似的,但對各輪之間數據沒有那麼關注。一旦實現流程自動化,線上DPO將成為未來。
各個團隊對後訓練階段的算法選擇不應該如此一成不變。DPO和PPO各有優劣,前者更容易擴展,但PPO啟發的方法(如線上RL)具有更高的性能上限。
目前這些方案主要出於簡潔性考量,因為這些團隊仍然相對較新並且正在構建模組化系統。
合成數據
新的RLHF循環中,很重要的一環是在大多數任務上超越人類能力的合成指令數據。
如果可以讓模型有一點點提升、生成更好的指令,那就"重新開始",更新檢查點。
Meta在論文中明確表示,他們"使用405B模型來提高我們較小模型的後訓練質量";谷歌通過蒸餾出Gemini Flash來做到這一點,但實際上大多數前沿模型可能都包含一些類似步驟。
據傳OpenAI正在使用50萬億token的數據訓練下一代模型,其中大部分為合成數據。去年有傳言稱Anthropic擁有"預訓練規模的憲法AI語料庫",現在看來這也很合理。
這些AI公司意識到合成數據的重要性應該是在12~18個月之前,當他們不再使用模型輸出進行自我迭代訓練的時候。但Meta不一樣,因為受益於其他更好的開放模型。
從當今的後訓練可以看出,合成數據造成模型崩潰的問題被過分誇大了。只有在人為設置的環境中,丟棄原始數據、只留下生成的新數據時,才會發生模型崩潰。