Llama 3.1 405B: GPT-4を超える オープンソースAI巨人が新時代を先導

メタは計画通りに最新版のLlamaモデル、Llama 3.1をリリースしたばかりです。

Metaは Llama 3.1 モデルをリリースしました。8B、70B、405B の3つのサイズバージョンが含まれています。主な特徴は以下の通りです:

  • 最大コンテキスト長が128Kに向上
  • 多言語対応
  • コード生成性能が優れている
  • 複雑な推論能力を持つ

ベンチマークテストの結果によると:

  • Llama 3.1 405B は GPT-4 0125 を上回り、GPT-4o、Claude 3.5 と互角
  • Llama 3.1 8B は Gemma 2 9B 1T と Mistral 7B Instruct を性能で上回る
  • Llama 3.1 70B は GPT-3.5 Turbo を性能で上回る

Llama 3.1 405B のトレーニング詳細:

  • 15兆以上のトークンを使用してトレーニング
  • 16000以上のH100 GPU上でトレーニング
  • 反復的な後処理プログラムを採用し、教師あり微調整と直接選好最適化を組み合わせる
  • 事前トレーニングと後処理データの量と質を改善
  • 16ビット精度から8ビット精度に量子化し、計算リソースの需要を削減

その他のハイライト:

  • オープン/無料のモデルウェイトとコードを提供
  • ライセンスはユーザーによる微調整、モデル蒸留、任意のデプロイメントを許可
  • Llama Stack APIを提供し、統合使用を容易に
  • 外部ツールの呼び出しを含む複数のコンポーネントの調整をサポート

MetaはLlama 3を使用して他のモデルを改善することを禁止しなくなり、よりオープンな姿勢を示しています。このリリースは、オープンソースの大規模モデルが性能面で初めてクローズドソースの大規模モデルに追いついたことを示し、オープンソースが主導する新時代の幕開けとなりました。

モデルダウンロードリンク

92ページの論文トレーニングレポート