揭秘前沿AI模型:後訓練技術的關鍵作用

研究顯示,後訓練在提升模型表現中扮演著同等重要的角色。

新的標準Pipeline

人類偏好數據

最初的RLHF管道重點是人類數據,包括用於指令微調的數據和任務完成度的偏好數據。這類數據成本高昂且被嚴格保護。

現在,唯一用到人類數據的方面就是偏好數據。Meta可能在偏好數據上花費了10M-20M美元或更多。

對開放社群而言,一個挑戰是弄清這類數據中的人為干預程度,能否用LLM-as-a-Judge或獎勵模型等方法代替。

擴展RLHF

Llama 3的對齊負責人Thomas Scialom表示,RLHF的可擴展性要高得多,成本更低、更容易操作,並且通常會帶來更好的性能。

產業界僅將指令微調(IFT)作為擴展RLHF的起點。SFT數據主要關注以前模型未能覆蓋的特定領域,然後在此基礎上擴展RLHF。

RLHF是一個迭代過程,模型的生成過程可以讓它繼續改進。Llama 3.1進行了6輪偏好數據的訓練,Llama 2是5輪,Nemotron是4輪,之前還有多輪指令微調。

進行多輪迭代可能主要出於可行性考量:

  1. 數據從註釋公司分批傳送到實驗室
  2. 進行多輪小規模的訓練可以降低最終產品交付的風險

類似的迭代RLHF方法可以追溯到Anthropic提出的"憲法人工智能",但開源社群似乎沒有大規模複現這個結果。

目前,學術界正在關注"線上DPO訓練",這在方向上是相似的,但對各輪之間數據沒有那麼關注。一旦實現流程自動化,線上DPO將成為未來。

各個團隊對後訓練階段的算法選擇不應該如此一成不變。DPO和PPO各有優劣,前者更容易擴展,但PPO啟發的方法(如線上RL)具有更高的性能上限。

目前這些方案主要出於簡潔性考量,因為這些團隊仍然相對較新並且正在構建模組化系統。

合成數據

新的RLHF循環中,很重要的一環是在大多數任務上超越人類能力的合成指令數據。

如果可以讓模型有一點點提升、生成更好的指令,那就"重新開始",更新檢查點。

Meta在論文中明確表示,他們"使用405B模型來提高我們較小模型的後訓練質量";谷歌通過蒸餾出Gemini Flash來做到這一點,但實際上大多數前沿模型可能都包含一些類似步驟。

據傳OpenAI正在使用50萬億token的數據訓練下一代模型,其中大部分為合成數據。去年有傳言稱Anthropic擁有"預訓練規模的憲法AI語料庫",現在看來這也很合理。

這些AI公司意識到合成數據的重要性應該是在12~18個月之前,當他們不再使用模型輸出進行自我迭代訓練的時候。但Meta不一樣,因為受益於其他更好的開放模型。

從當今的後訓練可以看出,合成數據造成模型崩潰的問題被過分誇大了。只有在人為設置的環境中,丟棄原始數據、只留下生成的新數據時,才會發生模型崩潰。