Llama 3.1 研發思路
如何決定參數規模
- 需考慮 scaling law、訓練時間、GPU 硬體約束等多種因素
- 不僅考慮 Meta 自身硬體,還要考慮整個 AI 社群的情況
- 量化技術的應用改變了推理和訓練/微調成本的比重
- 在現有算力和限制條件下,找到了 405B 這個平衡點
- 目標是做出與 GPT-4 比肩的開源模型
重新審視 Scaling Law
- 傳統 Scaling Law 關注模型權重和訓練量兩個維度
- Chinchilla 強調了訓練數據 token 總量的重要性
- Meta 選擇增加訓練 token 數和時長,讓模型「過度訓練」
- 這不符合 Chinchilla 定律,但可以獲得更好的推理表現
模型架構
- 相比 Llama 2 架構變化不大,主要擴展了數據規模和質量
- 未來可能會有更多架構改進,不局限於 Transformer
- 目前 Transformer 架構仍缺乏靈活性
- 正在探索 MoE 架構
關於合成數據
- 公開互聯網上存在大量低質量文本
- 使用 Llama 作為分類器過濾高質量 token
- Llama 3 後訓練完全使用從 Llama 2 獲得的合成數據
- 看好合成數據的前景
LLM 的評估與改進
- 針對基準分數進行後訓練改進存在過擬合風險
- 語言模型評估是一個困難的問題
- 嘗試了多種評估方法,如獎勵模型、model-as-a-judge 等
- 多輪 RLHF 是一個比較模型的好方法
Llama 4 與 Agent
- Meta 已於 6 月開始訓練 Llama 4 模型
- 重點可能圍繞 agent 技術
- 已在 Toolformer 等 agent 工具上進行了一些工作
- 優秀的指令模型是 agent 能力擴展的基礎
- Meta 發布的 GAIA 基準用於評估解決現實問題的能力
- agent 的各種能力與模型的智力水平密切相關