Metaの科学者がLlama 3.1の訓練プロセスを明らかに、Llama 4の開発が始動

Metaの研究者Thomas ScialomがLlama 3.1モデルとその発展の見通しについて議論しています。

Llama 3.1の研究開発アプローチ

パラメータ規模の決定方法

  • スケーリング則、トレーニング時間、GPUハードウェアの制約など、多くの要因を考慮する必要がある
  • Metaの自社ハードウェアだけでなく、AI業界全体の状況も考慮
  • 量子化技術の適用により、推論とトレーニング/微調整のコスト比率が変化
  • 現在の計算能力と制約条件下で、405Bというバランスポイントを見出した
  • GPT-4に匹敵するオープンソースモデルの作成が目標

スケーリング則の再考

  • 従来のスケーリング則はモデルの重みとトレーニング量の2次元に注目
  • Chinchillaはトレーニングデータのトークン総数の重要性を強調
  • Metaはトレーニングトークン数と期間を増やし、モデルを「過剰トレーニング」させることを選択
  • これはChinchillaの法則に反するが、より良い推論性能を得られる

モデルアーキテクチャ

  • Llama 2と比較してアーキテクチャの変更は少なく、主にデータの規模と品質を拡大
  • 将来的にはTransformerに限らず、さらなるアーキテクチャの改善の可能性
  • 現在のTransformerアーキテクチャにはまだ柔軟性が不足
  • MoEアーキテクチャを探索中

合成データについて

  • 公開インターネット上には低品質のテキストが大量に存在
  • Llamaを分類器として使用し、高品質なトークンをフィルタリング
  • Llama 3の後期トレーニングは完全にLlama 2から得られた合成データを使用
  • 合成データの将来性に期待

LLMの評価と改善

  • ベンチマークスコアに対する後期トレーニングの改善は過学習のリスクがある
  • 言語モデルの評価は難しい問題
  • 報酬モデル、model-as-a-judgeなど、様々な評価方法を試みた
  • 多段階RLHFはモデルを比較する良い方法

Llama 4とエージェント

  • Metaは6月にLlama 4モデルのトレーニングを開始
  • エージェント技術に重点を置く可能性
  • Toolformerなどのエージェントツールで一部の作業を行った
  • 優れた指示モデルはエージェント能力拡張の基礎
  • Metaが発表したGAIAベンチマークは現実問題解決能力の評価に使用
  • エージェントの様々な能力はモデルの知能レベルと密接に関連

原文リンク