Metaは Llama 3.1 モデルをリリースしました。8B、70B、405B の3つのサイズバージョンが含まれています。主な特徴は以下の通りです:
- 最大コンテキスト長が128Kに向上
- 多言語対応
- コード生成性能が優れている
- 複雑な推論能力を持つ
ベンチマークテストの結果によると:
- Llama 3.1 405B は GPT-4 0125 を上回り、GPT-4o、Claude 3.5 と互角
- Llama 3.1 8B は Gemma 2 9B 1T と Mistral 7B Instruct を性能で上回る
- Llama 3.1 70B は GPT-3.5 Turbo を性能で上回る
Llama 3.1 405B のトレーニング詳細:
- 15兆以上のトークンを使用してトレーニング
- 16000以上のH100 GPU上でトレーニング
- 反復的な後処理プログラムを採用し、教師あり微調整と直接選好最適化を組み合わせる
- 事前トレーニングと後処理データの量と質を改善
- 16ビット精度から8ビット精度に量子化し、計算リソースの需要を削減
その他のハイライト:
- オープン/無料のモデルウェイトとコードを提供
- ライセンスはユーザーによる微調整、モデル蒸留、任意のデプロイメントを許可
- Llama Stack APIを提供し、統合使用を容易に
- 外部ツールの呼び出しを含む複数のコンポーネントの調整をサポート
MetaはLlama 3を使用して他のモデルを改善することを禁止しなくなり、よりオープンな姿勢を示しています。このリリースは、オープンソースの大規模モデルが性能面で初めてクローズドソースの大規模モデルに追いついたことを示し、オープンソースが主導する新時代の幕開けとなりました。