「大きく強く」から「小さく精密に」へ激しく転換
GPT-4を超えることはもはや唯一のKPIではありません。大規模モデルは市場獲得の重要な競争期に入り、ユーザーを引き付けるには技術力を誇示するだけでは不十分で、自社モデルがより費用対効果が高いことを証明する必要があります - ### 同等の性能でモデルがより小さく、同等のパラメータでより高性能かつ低コストであることを。
実際、この「大規模モデルの小型化」という技術トレンドは、昨年後半から醸成され始めていました。
ゲームのルールを変えたのは2社です。1社はフランスのAIスタートアップMistral AIで、昨年9月に70億パラメータの大規模モデルで130億パラメータのLlama 2を打ち負かし、開発者コミュニティで一躍有名になりました。もう1社は中国のAIスタートアップ面壁智能で、今年2月にさらにコンパクトなエッジモデルMiniCPMを発表し、わずか24億パラメータでLlama 2 13Bを超える性能を実現しました。
両スタートアップは開発者コミュニティで高い評価を得ており、複数のモデルがオープンソースのトップチャートに登場しています。特に清華大学自然言語処理研究室から誕生した面壁智能は、今年そのマルチモーダルモデルが米国のトップ大学チームに「再利用」され物議を醸しましたが、面壁の独創的な取り組みは国内外の学術界で認められ、中国製オープンソースAIモデルの名声を高めました。
アップルも昨年からスマートフォンにより適したエッジモデルの研究を始めています。一方、これまで粗放的な拡大路線を取ってきたOpenAIは、比較的意外な新規参入者です。先週、軽量モデルGPT-4 miniを発表したことは、大規模モデルの王者が自ら「神の座」から降りて業界のトレンドに順応し、より安価で入手しやすいモデルでより広範な市場を開拓しようとしていることを意味します。
2024年は、大規模モデルの「小型化」の重要な年となるでしょう!
1. 大規模モデル時代の「ムーアの法則」:効率性が持続可能性の鍵
現在、大規模モデルの開発は一種の慣性に陥っています:### 力ずくで奇跡を起こす。
2020年、OpenAIの論文がモデルのパフォーマンスと規模に強い相関関係があることを実証しました。より多くの高品質データを取り込み、より大規模なモデルを訓練すれば、より高いパフォーマンスが得られるのです。
この単純だが効果的な道筋に沿って、ここ2年間、世界中でより大きなモデルを追い求める激しい競争が巻き起こりました。これはアルゴリズムの覇権という潜在的な問題を生み出し、資金と計算能力が豊富なチームだけが長期的に競争に参加できる資本を持つことになります。
昨年、OpenAIのCEOサム・アルトマンは、GPT-4の訓練コストが少なくとも### 1億ドルかかったことを明らかにしました。高収益のビジネスモデルがまだ見つかっていない状況で、財力のある大手テック企業でさえ、長期的にコストを度外視した投資を続けるのは難しいでしょう。エコシステムもこのような底なしの金銭ゲームを許容することはできません。
トップクラスの大規模言語モデル間の性能差は目に見えて縮まっています。GPT-4は首位を維持していますが、Claude 3 OpusやGemini 1.5 Proとのベンチマークスコアの差は大きくありません。一部の能力では、数百億パラメータ級のモデルがさらに優れたパフォーマンスを示すこともあります。モデルの大きさはもはや性能を左右する唯一の決定的要因ではありません。
トップクラスの大規模モデルに魅力がないわけではありませんが、軽量モデルの方がコストパフォーマンスに優れています。
以下の図は、AIエンジニアのKarina Ngugenが今年3月末にソーシャルメディアで共有したAI推論コストのトレンドグラフで、2022年以降の大規模言語モデルのMMULベンチマークにおける性能とコストの関係を明確に示しています:時間の経過とともに、言語モデルはより高いMMUL精度スコアを獲得し、関連コストは大幅に低下しています。新しいモデルの精度は約80%に達し、コストは数年前と比べて数桁低くなっています。
世界は非常に速く変化しており、ここ数ヶ月でも多くの経済的で効率的な軽量モデルが登場しています。
「大規模言語モデルのサイズ競争が激化している - 後退している!」AIの技術的天才Andrej Karpathyは賭けています:「非常に非常に小さなモデルが非常に上手く、そして信頼性高く'思考'するのを見ることになるでしょう。」
モデルの能力÷計算に関与するモデルのパラメータ数 = 知識密度、この指標は同じパラメータ規模のモデルがどれだけ強力な知能を持つことができるかを表します。2020年6月にリリースされたGPT-3大規模モデルは1750億のパラメータを持っていました。今年2月、同等の性能を実現した面壁智能のMiniCPM-2.4Bモデルは、パラメータ規模が24億まで減少し、知識密度が約### 86倍向上したことになります。
これらのトレンドに基づいて、清華大学コンピュータサイエンス学部の准教授で面壁智能の主任科学者である劉知遠は最近、興味深い見解を提示しました:### 大規模モデル時代には独自の「ムーアの法則」があるというものです。
具体的には、### データ-計算能力-アルゴリズムの協調的発展により、大規模モデルの知識密度が継続的に向上し、平均して8ヶ月ごとに倍増するというものです。
チップ上の回路密度を高めることで、同等の計算能力を持つコンピューティングデバイスが、数部屋分のスペースを必要とするスーパーコンピュータからポケットに入るスマートフォンへと進化したように、大規模モデルの発展も同様の法則に従うでしょう。劉知遠は彼が提唱したこの指導的な法則を「面壁の法則」と名付けました。
この傾向が続けば、### 1000億パラメータのモデルが持つ能力を、8ヶ月後には500億パラメータのモデルで実現でき、さらに8ヶ月後には250億パラメータのモデルで達成できるようになります。
2. 多方面での展開:クローズドソースの価格戦争が白熱化し、オープンソースで中米欧が三つ巴
現在、大規模モデルの軽量化競争に参入しているプレイヤーは多方面に分かれています。
OpenAI、Google、Anthropicはクローズドソースの路線を選択しました。彼らのGPT-4、Claude 3.5 Sonnet、Gemini 1.5 Proなどのフラッグシップモデルは最高性能を維持しており、これらのモデルのパラメータ規模は数千億から数兆に及びます。
軽量モデルは、これらのフラッグシップモデルの簡略版です。先週のOpenAIの新製品発表後、GPT-4 miniはGemini FlashとClaude Haikuを上回る性能で、市場で10B以下最高のコストパフォーマンスを持つオプションとなりました。対消費者向けではGPT-3.5に代わってユーザーに無料で提供され、対ビジネス向けではAPIの価格を大幅に引き下げ、大規模モデル技術の採用障壁を低くしています。
「Machine Learning Engineering」の著者Andriy Burkovは、価格からGPT-4 miniのパラメータ規模が約7Bであると推測しています。面壁智能のCEO李大海は、GPT-4 miniが専門家の数が多い「幅広いMoE」モデルであり、エッジモデルではないと推測しています。高コストパフォーマンスのクラウドモデルとして位置づけられ、大規模モデルの産業応用コストを大幅に削減することを目指しています。