01.405Bオープンソースモデル、GPT-4oに匹敵、25のパートナーが準備完了
Metaは150以上のベンチマークデータセットのパフォーマンスを評価し、Llama 3.1 405Bは常識、実用性、数学、ツール使用、多言語翻訳などの一連のタスクにおいて、GPT-4o、Claude 3.5 Sonnet、Gemini Ultraと匹敵することができます。
実際のシナリオでは、Llama 3.1 405Bは人間による評価と比較され、全体的なパフォーマンスはGPT-4oとClaude 3.5 Sonnetを上回りました。
アップグレードされたLlama 3.1 8Bおよび70Bモデルは、同じパラメータサイズのモデルと比較してもパフォーマンスが向上しており、これらの小規模パラメータモデルは同じ128K Tokensのコンテキストウィンドウ、多言語、改善された推論、最先端のツール使用をサポートし、より高度なアプリケーションの実現をサポートします。
Metaはライセンスを更新し、開発者が初めて405Bパラメータスケールを含むLlamaモデルの出力を使用して他のモデルを改善することを許可しました。
同時に、Metaのオープンソースエコシステムはさらに拡大し、25以上の企業がLlama 3.1の新モデルを発表しています。
その中で、Amazon Web Services、Databricks、NVIDIAは開発者が自身のモデルを微調整し、トレーニングするための完全なサービスを提供しています。AIチップスタートアップのGroqなどは、Metaが今回発表したすべての新モデルに対して低遅延、低コストの推論サービスを構築しました。
同時に、これらのモデルはAmazon Web Services、Microsoft Azure、Google Cloud、Oracleなどの主要クラウドプラットフォームで提供されます。
Scale AI、Dell、Deloitteなどの企業は、企業がLlamaモデルを採用し、自社のデータを使用してカスタムモデルをトレーニングするのを支援する準備ができています。
Llama 3.1 405Bは最強のオープンソースモデルであるだけでなく、最強のモデルになる可能性があり、オープンソースとクローズドソースの距離が再び大幅に縮まりました。
02.完全に最適化されたトレーニングスタック、モデルのスケーラビリティに焦点
15兆個のTokensに基づいてモデルをトレーニングし、同時に研究者が望む効果を合理的な時間内に実現するために、Metaはトレーニングスタックを完全に最適化しました。
上記の課題を解決するために、Metaはモデル開発プロセスをスケーラブルに保ち、より直接的な戦略に焦点を当てることを選択しました:
-
研究者は、MoE混合エキスパートモデルを採用する代わりに、標準的なデコーダーのみのTransformerモデルアーキテクチャを選択し、わずかな調整を行いました。これにより、トレーニングの安定性を最大限に高めることができます。
-
研究者は、監督付き微調整と直接的な選好最適化を使用する反復的な後トレーニング手順を採用しました。これにより、モデルは各ラウンドで最高品質の合成データを作成し、各能力のパフォーマンスを向上させることができます。
以前のLlamaシリーズモデルと比較して、Metaはトレーニング前とトレーニング後のデータの量と品質を改善しました。これらの改善には、トレーニング前データのより慎重な前処理と管理パイプラインの開発、より厳格な品質保証の開発、およびトレーニング後データのフィルタリング方法が含まれます。
大規模言語モデルのスケーリング法則が予想するように、Metaの新しいフラッグシップモデルは、同じ戦略でトレーニングされた小規模モデルよりも優れています。Metaはまた、405Bパラメータのモデルを使用して、より小規模なモデルのトレーニング品質を向上させました。
同時に、405Bパラメータモデルの大規模推論をサポートするために、研究者はモデルをBF16からFP8に量子化し、必要な計算要件を効果的に削減し、モデルが単一のサーバーノード内で実行できるようにしました。
指示とチャットの微調整に関しては、研究者は事前トレーニングされたモデルの上で数ラウンドのアライメントを行って最終モデルを生成し、各ラウンドには監督付き微調整(SFT)、拒否サンプリング(RS)、直接的な選好最適化(DPO)が含まれ、合成データ生成を使用してすべての機能でより高品質の合成データを生成するためのほとんどのSFT例を生成しました。
さらに、Metaはこれらの合成データを最高品質にフィルタリングするために複数のデータ処理技術を採用し、これにより新しいモデルが機能全体で微調整データ量をスケールアップできるようになりました。
データに関しては、研究者はすべての機能を持つ高品質なモデルを生成するためにデータを慎重にバランスを取りました。例えば、短いコンテキストベンチマークでモデルの品質を保証し、128Kのコンテキスト長にスケールアップできるようにしました。
さらに、Metaは包括的なLlamaシステムの導入を発表しました。このシステムはLlamaモデルをカバーするだけでなく、複数のコンポーネントの調整と外部ツールの呼び出しも含み、開発者が基本モデルよりも強力なカスタム製品を開発するのを支援します。
Llamaシステムは、Llama Guard 3(多言語セキュリティモデル)やPrompt Guard(即時注入フィルター)などの新しいオープンソースセキュリティツールを含む一連の新しいコンポーネントをカバーします。分散したコンポーネントを接続するために、MetaはLlama Stack APIのコメント要求も発表しました。これは標準インターフェースであり、サードパーティのプロジェクトがLlamaモデルをより簡単に利用できるようにします。
一般の開発者にとって、405Bスケールのモデルを使用することは依然として課題であり、大量の計算リソースと専門知識が必要です。
Llamaシステムに基づいて、生成AIの開発はモデルにプロンプトを与えるだけではなく、誰もが405Bモデルを使用してより多くのタスクを完了できるようにすべきです。これには、リアルタイムおよびバッチ推論、監督付き微調整、特定のアプリケーションのモデル評価、継続的な事前トレーニング、検索拡張生成(RAG)、関数呼び出し、合成データ生成などが含まれます。
これはMetaがこれまでに発表した最大のモデルであり、将来的にはよりデバイスフレンドリーなサイズ、より多くのモード、およびエージェントレベルの更新が予定されています。
03.405B大規模モデルがMeta AIを大幅に改善、Questスマート音声アシスタントがアップグレード
現在、MetaのWhatsAppやMeta AIチャットボットなど、複数のエンドポイントでLlama 3.1 405Bの使用が開始されています。
Meta AIは現在7つの新しい言語をサポートしており、今回Metaは視覚生成、数学、コーディングなどの分野に焦点を当てた新しいMeta AI創造ツールのバッチを発表しました。
まず視覚生成を見てみましょう。Meta AIは「Imagine Me」画像生成プロンプト機能を導入し、ユーザーがMeta AIチャットで「Imagine me」と入力し、プロンプトを追加することができます。例えば、「Imagine me as a member of royalty」や「Imagine me in a surrealist painting」と入力すると、画像が生成され、友人や家族と共有することができます。