読み込み中...

Llama 3.1 405B: GPT-4を超えるオープンソースAI巨人が新時代を先導

メタは計画通りに最新版のLlamaモデル、Llama 3.1をリリースしたばかりです。

Metaは Llama 3.1 モデルをリリースしました。8B、70B、405B の3つのサイズバージョンが含まれています。主な特徴は以下の通りです:

最大コンテキスト長が128Kに向上
多言語対応
コード生成性能が優れている
複雑な推論能力を持つ

ベンチマークテストの結果によると:

Llama 3.1 405B は GPT-4 0125 を上回り、GPT-4o、Claude 3.5 と互角
Llama 3.1 8B は Gemma 2 9B 1T と Mistral 7B Instruct を性能で上回る
Llama 3.1 70B は GPT-3.5 Turbo を性能で上回る

Llama 3.1 405B のトレーニング詳細:

15兆以上のトークンを使用してトレーニング
16000以上のH100 GPU上でトレーニング
反復的な後処理プログラムを採用し、教師あり微調整と直接選好最適化を組み合わせる
事前トレーニングと後処理データの量と質を改善
16ビット精度から8ビット精度に量子化し、計算リソースの需要を削減

その他のハイライト:

オープン/無料のモデルウェイトとコードを提供
ライセンスはユーザーによる微調整、モデル蒸留、任意のデプロイメントを許可
Llama Stack APIを提供し、統合使用を容易に
外部ツールの呼び出しを含む複数のコンポーネントの調整をサポート

MetaはLlama 3を使用して他のモデルを改善することを禁止しなくなり、よりオープンな姿勢を示しています。このリリースは、オープンソースの大規模モデルが性能面で初めてクローズドソースの大規模モデルに追いついたことを示し、オープンソースが主導する新時代の幕開けとなりました。

モデルダウンロードリンク

92ページの論文トレーニングレポート