Meta科學家揭秘Llama 3.1訓練過程,Llama 4開發啟動

Meta研究員Thomas Scialom探討Llama 3.1模型及其發展前景。

Llama 3.1 研發思路

如何決定參數規模

  • 需考慮 scaling law、訓練時間、GPU 硬體約束等多種因素
  • 不僅考慮 Meta 自身硬體,還要考慮整個 AI 社群的情況
  • 量化技術的應用改變了推理和訓練/微調成本的比重
  • 在現有算力和限制條件下,找到了 405B 這個平衡點
  • 目標是做出與 GPT-4 比肩的開源模型

重新審視 Scaling Law

  • 傳統 Scaling Law 關注模型權重和訓練量兩個維度
  • Chinchilla 強調了訓練數據 token 總量的重要性
  • Meta 選擇增加訓練 token 數和時長,讓模型「過度訓練」
  • 這不符合 Chinchilla 定律,但可以獲得更好的推理表現

模型架構

  • 相比 Llama 2 架構變化不大,主要擴展了數據規模和質量
  • 未來可能會有更多架構改進,不局限於 Transformer
  • 目前 Transformer 架構仍缺乏靈活性
  • 正在探索 MoE 架構

關於合成數據

  • 公開互聯網上存在大量低質量文本
  • 使用 Llama 作為分類器過濾高質量 token
  • Llama 3 後訓練完全使用從 Llama 2 獲得的合成數據
  • 看好合成數據的前景

LLM 的評估與改進

  • 針對基準分數進行後訓練改進存在過擬合風險
  • 語言模型評估是一個困難的問題
  • 嘗試了多種評估方法,如獎勵模型、model-as-a-judge 等
  • 多輪 RLHF 是一個比較模型的好方法

Llama 4 與 Agent

  • Meta 已於 6 月開始訓練 Llama 4 模型
  • 重點可能圍繞 agent 技術
  • 已在 Toolformer 等 agent 工具上進行了一些工作
  • 優秀的指令模型是 agent 能力擴展的基礎
  • Meta 發布的 GAIA 基準用於評估解決現實問題的能力
  • agent 的各種能力與模型的智力水平密切相關

原文連結