オープンソースAIの新たな王者：Llama 3.1がリークしGPT-4を超える

明日リリース予定のLlama 3.1ファミリー

リークされたモデルカードによると、Llama 3.1は23日にリリースされる予定です。

ライセンスは「カスタム商用ライセンス」と「Llama 3.1コミュニティライセンス」です。

具体的には、Llama 3.1シリーズの多言語大規模言語モデルは、8B、70B、405Bのパラメータスケールを含む、事前学習済みおよび指示調整済みの生成モデルのセットです。

指示調整済みのLlama 3.1テキストオンリーモデル（8B、70B、405B）は、多言語会話ユースケース向けに最適化されています。

英語に加えて、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語の7言語をサポートしています。

紹介によると、Llama 3.1の新機能には、より長いコンテキスト、多言語入出力のサポート、開発者およびサードパーティツールとの統合が含まれています。

GitHubのベンチマークチャート（現在404）は、Llama 3.1のベンチマークテストにおける優れたパフォーマンスを示しています。

具体的には、事前学習モデルのベンチマーク評価において、Llama 3.1 405Bは一般タスク、知識推論、読解力で新記録を樹立しました。

特にMMLUとSQuADのサブベンチマークで改善が顕著でした。

一方、Llama 3.1の8Bと70Bパラメータバージョンは、Llama 3と比較してわずかな改善を示しました。ただし、一部の指標では70B Llama 3.1は前モデルを下回っています。

さらに、指示調整済みモデルの中で、Llama 3.1 405Bは事前学習モデルよりも明らかに強力です。推論、コーディング、数学、ツール使用、多言語ベンチマークにおいて、微調整された8Bおよび70Bバージョンを大きく上回っています。

Llama 3.1 8Bおよび70B微調整モデルも、複数の能力タスクで大幅なパフォーマンス向上を示しています。

一部のネットユーザーが他の主要モデルのベンチマークをまとめ、比較を通じてClaude 3.5 Sonnetがすべてのベンチマークで最高であることを示しました。

Llama 3.1 405Bの微調整版は、MMLU Pro数学ベンチマークでのみ最高のパフォーマンスを示し、73.3%のスコアですべての大規模モデルを上回りました。

さらに、405BはGPQA（大学院レベルの専門知識と推論）、数学、DROP（読解力）、MGSM（多言語数学）、HumanEval（プログラミング）、BBH（知識評価）ベンチマークでGPT-4oと同等のパフォーマンスを示しています。

また、405Bは最新のGPT-4o miniモデルを大きく上回っています。

Llama 3.1は、最適化されたTransformerアーキテクチャを使用する自己回帰言語モデルです。調整されたバージョンは、SFTとRLHFを使用して人間の安全性の好みに合わせています。

Llama 3.1シリーズモデルでは、トークン数は事前学習データのみを指します。

すべてのモデルバージョンは、推論のスケーラビリティを向上させるためにグループ化されたクエリ注意（GQA）を使用しています。

Llama 3と同様、Llama 3.1は公開されているソースから約15兆トークンで事前学習されました。

微調整データには、公開されている指示データセットと、2500万以上の合成サンプルが含まれており、事前学習データは2023年12月までのものです。

Llama 3.1は、多言語環境での商用および研究用途の両方をサポートしています。

指示調整済みのテキストオンリーモデルはチャットアシスタントに適しており、事前学習モデルはさまざまな自然言語生成タスクに適応できます。Llama 3.1モデルコレクションは、合成データ生成やモデル蒸留を含む他のモデルの改善にそのモデル出力を使用することもサポートしています。

法律や規制、利用ポリシー、Llama 3.1コミュニティライセンスに違反する使用、またはサポートされている言語を超えた使用は対象外です。

チームは、Llama 3.1がサポートされている8言語以外の幅広い言語セットで学習されたことを強調しています。開発者は、コミュニティライセンスなどのポリシーを遵守し、安全で責任ある使用を確保する限り、他の言語での使用のために微調整することができます。

事前学習には、Metaのカスタムトレーニングライブラリ、MetaのカスタムGPUクラスター、および本番インフラストラクチャが使用されました。微調整、アノテーション、評価も本番インフラストラクチャで行われました。

学習には累計で3930万GPUホアーの計算時間が使用され、ハードウェアタイプはH100-80GB（700W TDP）でした。

学習時間は各モデルの学習に必要な総GPU時間であり、消費電力は各GPUデバイスのピーク電力容量を電力使用効率で調整したものです。