Llama 3.1: オープンソースモデルが非公開モデルの頂点を超え、AI業界が再構築される?

メタの創業者ザッカーバーグは、オープンソース戦略を全面的に推進することを固く約束しました。

Metaが正式にLlama 3.1をリリースしました。8B、70B、405Bの3つのサイズのモデルが含まれ、最大コンテキスト長が128kに拡張されました。主な特徴は以下の通りです:

  1. 405Bバージョンは現在最大のオープンソースモデルの1つで、既存のトップAIモデルを性能で上回っています。

  2. より長いコンテキストウィンドウ(最大128Kトークン)を導入し、より複雑なタスクや対話を処理できます。

  3. 多言語の入出力をサポートし、汎用性と適用範囲を向上させました。

  4. 推論能力が向上し、特に複雑な数学問題の解決やリアルタイムのコンテンツ生成で優れた性能を示しています。

Metaは、オープンソースの大規模言語モデルが非公開モデルに性能で劣る時代が終わりつつあると述べ、Llama 3.1がオープンソースが主導する新時代の幕開けだとしています。405Bバージョンは性能面でGPT-4やClaude 3に匹敵するとされています。

モデルアーキテクチャに関しては、Llama 3.1は15兆トークン以上のデータで訓練され、16,000以上のH100 GPUが使用されました。安定性と利便性を確保するため、MoEアーキテクチャではなく標準的なデコーダーのみのTransformerアーキテクチャが採用されています。

研究チームは反復的な後訓練手法を実施し、教師あり微調整と直接選好最適化を通じてモデルの機能を向上させました。また、405Bモデルを小規模モデルの「教師モデル」として使用する試みも行われています。

Metaは複数のサンプルアプリケーションと新コンポーネントを含む完全な参照システムもリリースし、Llama Guard 3やPrompt Guardなどが含まれています。さらに、ツールチェーンコンポーネントとアプリケーションの構築を簡素化するための「Llama Stack」標準インターフェースも提案しています。

ベンチマークテストによると、405Bバージョンは多くのテストでGPT-4などの非公開モデルと同等かわずかに上回る性能を示しています。8Bと70Bバージョンも同規模の他のオープンソースモデルを大きく上回っています。

Metaの公式ブログ記事へのリンク

Mark ZuckerbergのオープンソースAIに関する記事へのリンク