Llama 3.1リーク:性能がGPT-4を上回り、コストは10分の1のみ?

Metaの傘下にあるAIモデルLlamaが再び漏洩事件に見舞われ、オープンソースコミュニティの注目を集めています。度重なる情報漏洩にもかかわらず、Llamaはオープンソース路線を堅持していますが、この戦略は課題に直面しています。この事件は、AI技術のオープン性と安全性の間の矛盾を浮き彫りにし、オープンソースモデルの管理と保護に関する考察を促しています。

Llama 3.1のパフォーマンスはOpenAIのGPT-4oに匹敵!

一部のAIブロガーは、Llama 3.1のリリースがAI世界の運命を変える別の日になるだろうと称賛しました。

リークされたベンチマーク結果によると、Llama 3.1は8B、70B、405Bのサイズがあります。最小のパラメータ数である70Bモデルでさえ、多くの面でGPT-4oと同等のパフォーマンスを発揮します。

一部のネットユーザーは、このベンチマークに基づいて、Llama 3.1 405B ≈ GPT-4oであり、Llama 3.1 70BがOpenAIを打ち負かす最初の軽量モデル、GPT-4o miniになるだろうと指摘しました。

しかし、モデルをダウンロードして試した多くの人々は、リークされたLlama 3.1 405Bの総ファイルサイズが約820GBであり、フル精度を維持するためにLlama 2(約280GB)の約3倍のメモリが必要であることを発見しました。

これは、自宅にマイニングリグがあり、十分なGPUを購入できる場合を除いて、個人開発者が自分のコンピューターでLlama 3.1を実行するのは難しいことを意味します。一部のネットユーザーは、Llama 3.1が個人ではなく、機関や企業を対象としているのではないかと推測しています。

まだ発表されていないLlama 3.1にも冷や水を浴びせる声がありました。多くのネットユーザーは、Llama 3.1のGPU要件が高すぎるため、比較するとOpenAIのGPT-4o miniの方がコスト効率が良いと不満を漏らしています。

リークされたモデル情報によると、Llama 3.1は2024年4月19日にリリースされたLlama 3と比較して、より長いコンテキストウィンドウ、多言語入出力、開発者やサードパーティツールとの可能な統合など、機能面でさらなる改良が加えられています。

トレーニングデータ:Llama 3.1は公開ソースから15T+以上のトークンでトレーニングされ、微調整データには公開されている指示チューニングデータセット(Llama-3とは異なり!)と2500万以上の合成生成例が含まれています。

多言語会話:Llama 3.1は8言語をサポートしています:英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語。残念ながら中国語は含まれていませんが、開発者はサポートされている8言語以外の言語でLlama 3.1モデルを微調整することができます。

コンテキストウィンドウ:各バージョンのコンテキスト長が8kから128kに拡張され、モデルが一度に約96,000語を記憶、理解、処理できるようになりました。これはほぼハリーポッターの原作1冊分に相当します。

多くのネットユーザーは、Llama 3.1を「先代」と比較することに熱心で、メトリクスが大幅に改善されただけでなく、計算リソースも節約されていることを発見しました。

ネットユーザーのテストによると、Llama 3.1はLlama 3と比較して能力が大幅に向上しています。特に、human_evalとtruthfulqa_mc1の能力が顕著に向上しており、より強力なコード生成能力とより真実な質問応答が可能になっています。

同時に、Llama 3のinstructモデルは、プロンプト学習、文脈学習、効率的なパラメータ微調整などのメトリクスでベースモデルよりも明らかな改善を示しています。

これは理にかなっています。ベースモデルは通常、特定のタスクに対して微調整されていませんが、instructモデルは指示に従ったり特定のタスクを完了したりするように特別にトレーニングされているからです。通常、instructモデルはメトリクスでより良いパフォーマンスを示します。

これにより、Llama 3.1の公式リリースへの期待がさらに高まります。現在リークされているLlama 3.1モデルのテストはベースモデルのみを対象としていますが、instructモデルはさらに良いパフォーマンスを示す可能性があります!

驚くべきことに、ベンチマーク結果では、Llama 3.1 70BモデルがGPT-4oに匹敵または上回り、Llama 3.1 8BモデルはLlama 3 70Bモデルに近いパフォーマンスを示しています。一部のネットユーザーは、これがモデル蒸留技術を使用している可能性があると推測しています。8Bと70Bモデルは最大の405Bモデルから派生した簡略版であり、大きなモデルを「小さく」しているのかもしれません。

モデル蒸留は、生徒が教師から学ぶようなものと見なすことができます。大きく強力なモデル(教師モデル)が教師であり、より小さく単純なモデル(生徒モデル)が生徒です。生徒モデルは教師モデルを「模倣」することで学習し、その出力を教師モデルの出力にできるだけ近づけようとすることで、同様の知識と能力を学びます。

蒸留トレーニング後、生徒モデルは高いパフォーマンスと同等の精度を維持しながら、モデルサイズと計算リソース要件を削減することができます。

Llama 3.1が期待通りオープンソース化されるかどうかはまだ不明です。しかし、オープンソース化されたとしても、Llama 3.1を使用するには依然として深い懐が必要です。

Llama 3.1を実行するための基本的な入場券は、十分なGPUです。

リークされたファイルによると、H100-80GBタイプのハードウェアでLlama 3.1 405Bのトレーニング時間は30.84M GPU時間です。これは、1時間あたり1台のH100-80GBのみを使用すると仮定すると、Llama 3.1 405Bの実行に30.84M時間かかることを意味します - モデルの実行に3500年かかることになります!

プライベートデプロイメントの場合、企業が1ヶ月以内にLlama 3.1 405Bを正常に実行したい場合、少なくとも43,000台のH100-80GBを用意する必要があります。H100が1台40,000ドルとすると、### Llama 3.1 405Bの計算能力を使用するための入場券は170億ドル、1250億人民元に相当する高額なものとなります。

良いニュースは、Llama 3.1の推論コストが安くなる可能性があることです。

Artificial Analysisの予測によると、Llama 3.1 405Bで100万トークンを処理するコストは、同等の品質のフロンティアモデル(GPT-4oとClaude 3.5 Sonnet)よりも安くなり、より良いコスト効率を提供します。

さらに、一部のネットユーザーはソースコードから、Llama 3.1 405Bが使用料を支払う必要のあるメンバーシップ製品になる可能性があると推測しています。しかし、実際の状況は公式リリースを待つ必要があります。