Llama 3.1の研究開発アプローチ
パラメータ規模の決定方法
- スケーリング則、トレーニング時間、GPUハードウェアの制約など、多くの要因を考慮する必要がある
- Metaの自社ハードウェアだけでなく、AI業界全体の状況も考慮
- 量子化技術の適用により、推論とトレーニング/微調整のコスト比率が変化
- 現在の計算能力と制約条件下で、405Bというバランスポイントを見出した
- GPT-4に匹敵するオープンソースモデルの作成が目標
スケーリング則の再考
- 従来のスケーリング則はモデルの重みとトレーニング量の2次元に注目
- Chinchillaはトレーニングデータのトークン総数の重要性を強調
- Metaはトレーニングトークン数と期間を増やし、モデルを「過剰トレーニング」させることを選択
- これはChinchillaの法則に反するが、より良い推論性能を得られる
モデルアーキテクチャ
- Llama 2と比較してアーキテクチャの変更は少なく、主にデータの規模と品質を拡大
- 将来的にはTransformerに限らず、さらなるアーキテクチャの改善の可能性
- 現在のTransformerアーキテクチャにはまだ柔軟性が不足
- MoEアーキテクチャを探索中
合成データについて
- 公開インターネット上には低品質のテキストが大量に存在
- Llamaを分類器として使用し、高品質なトークンをフィルタリング
- Llama 3の後期トレーニングは完全にLlama 2から得られた合成データを使用
- 合成データの将来性に期待
LLMの評価と改善
- ベンチマークスコアに対する後期トレーニングの改善は過学習のリスクがある
- 言語モデルの評価は難しい問題
- 報酬モデル、model-as-a-judgeなど、様々な評価方法を試みた
- 多段階RLHFはモデルを比較する良い方法
Llama 4とエージェント
- Metaは6月にLlama 4モデルのトレーニングを開始
- エージェント技術に重点を置く可能性
- Toolformerなどのエージェントツールで一部の作業を行った
- 優れた指示モデルはエージェント能力拡張の基礎
- Metaが発表したGAIAベンチマークは現実問題解決能力の評価に使用
- エージェントの様々な能力はモデルの知能レベルと密接に関連