大規模言語モデルのアーキテクチャ論争:CoEとMoEの対決

大規模言語モデル業界では独自の生産チェーンが形成されている

暴力に奇跡がなくなったとき、大規模言語モデルは技術の呪いに陥っている

絶対的な大規模パラメータは、大規模言語モデルの実用化における唯一の解決策ではないかもしれません。この考えは、大規模言語モデル業界で徐々に共通認識となりつつあります。

その中で、パラメータ拡大の道のりにおける最初の難関は、このご馳走の中で最大の勝者であるNVIDIAです。

最近、Metaの研究報告によると、最新のLlama 3 405Bパラメータモデルを16384個のNVIDIA H100 GPUで構成されるクラスターで訓練した際、54日間で419回の予期せぬ事態が発生し、訓練期間中平均3時間ごとに1回の障害が発生しました。同時に、単一のGPUの障害でさえ、訓練プロセス全体を中断させ、訓練の再開を余儀なくされました。

簡単に言えば、現在の大規模言語モデルのパラメータ数は、ハードウェアが支えられる限界に近づいています。無限のGPUがあっても、大規模言語モデルの訓練における計算能力の問題を解決することはできません。パラメータ拡大の道を突き進めば、訓練プロセスはシーシュポスの岩押しのような無限の繰り返しになるでしょう。

ハードウェアが大規模言語モデルの拡張の難度を高める一方で、特定の場面では知能レベルがパラメータ数に比例しなくなっており、実用的な観点からこの暴力的な喜びに大きな疑問符を投げかけています。

大規模言語モデルのシナリオは複雑化、専門化、細分化し続けており、一つのモデルで一般的な質問に答え、専門分野の問題も解決できるというのは、ほぼ夢想的です。

国内の大規模言語モデルメーカーが好んで使用する技術比較の次元は、GPT-4と詩の鑑賞や冗談の比較です。ほぼ例外なく、モデルの大小やオープンソースモデルの再利用に関わらず、国産の大規模言語モデルは「世界一」を圧倒しています。さらに、魯迅と周樹人の関係のような最も基本的な文学常識の問題でさえ、最も優れた大規模言語モデルは最も伝統的な検索エンジンに及びません。

実際のアプリケーションに戻ると、商業化の不可能なトライアングルは、パラメータ信者たちに冷水を浴びせかけています。

実際のアプリケーションでは、モデルの知能レベル以外に、プロダクトマネージャーは速度とコストの2つの要因も考慮する必要があります。通常、質問応答で1秒以内の応答速度、99%の正確性、そしてコストを相殺できるビジネスモデルが、大規模言語モデルが生存するための必要条件となります。

しかし、大規模パラメータ路線を使用して知能を向上させると、知能レベルが高くなるほど、製品の応答速度が遅くなり、コストが高くなる傾向があります。逆もまた然りです。

パラメータを無制限に拡大させ続けると、AIは不可避的に資本の戦争となりますが、拡大のコストは歴史上のどの同等段階の商業競争をも遥かに超えています...すでにアクセルを踏み込んだプレイヤーにとっては、相手が追いつけないレベルまで賭け金を上げることでしか、自分の負け方を少しでも軽くすることができません。

そして、かすかに見える天井に直面し、業界の課題は転換し始めました:もし万能モデルが存在せず、暴力に奇跡がないなら、業界はどこへ向かうべきか?

大規模言語モデルのTモデル時代:CoEかMoEか?

一つの大規模言語モデルが同時に汎用性と専門性を達成することが不可能になったとき、複数のモデルの連携と分業が業界の第二段階の主旋律となりました。

1913年、フォード社は創造的に屠殺ラインの考え方を自動車産業に導入し、世界初の組立ラインを開発しました。自動車生産は、熟練工の手作業から工業化プロセスへと進化し、1台の自動車の生産時間は約60倍短縮され、販売価格も半分以上下がりました。自動車製造は、ここから新しい時代に入りました。

同様のTモデル時代が、大規模言語モデル産業でも起こっています。

最も典型的なシナリオである翻訳を例にとると、良い翻訳は「信・達・雅」の3つのレベルを達成すべきです。しかし、大規模言語モデルの世界では、従来の翻訳モデルは「信」のみを達成でき、「達」と「雅」は文章作成モデルに依存しています。

しかし、複数のモデルをどのように分業させるかについて、業界は明確に縦連合派と横連合派に分かれています。

縦連合派の技術的アプローチはMoEです。

MoE(Mixture-of-Experts)、日本語では混合専門家モデルと訳されますが、複数の専門分野の専門家モデルを組み合わせて一つの超大規模モデルを作ります。2022年の時点で、GoogleはMoE大規模モデルのSwitch Transformerを提案し、1571Bのパラメータ数で、事前学習タスクにおいてT5-XXL(11B)モデルよりも高いサンプル効率(より正確で、計算コストが大幅に増加しない)を示しました。

さらに、アメリカの有名ハッカーGeorge HotzとPyTorchの創設者Soumith Chintalaも、GPT-4は8つの220Bパラメータ数のMoEモデルで構成される1760Bパラメータの大規模モデルであり、厳密な意味での「単一の」兆パラメータモデルではないと述べています。

しかし、この8in1のアプローチは、MoEの設計と各アップグレードに膨大なリソースが必要となります。日常的な登山に例えると、8848mのエベレストを登る難しさは、1108mの雁蕩山を8回登る体力の合計をはるかに超えます。したがって、参加できるのは、8種目すべてで絶対的な優位性を持つAI技術のリーダーたちだけです。

そこで、MoEが寡占の遊びになるにつれ、新しい技術的アプローチが台頭してきました - 横連合派のCoEです。

CoE(Collaboration-of-Experts)、つまり専門家協調モデルです。簡単に言えば、一つの入口が同時に複数のモデルにアクセスし、入口がモデル分析の前に意図認識のステップを追加し、その後タスクを割り当て、どのモデルが機能するか、またはどのモデルが協力するかを決定します。MoEと比較して、CoEの最大の利点は、各専門家モデルが互いに協力できるが、束縛関係が存在しないことです。

MoEと比較して、CoEの各専門家モデル間にはより多くの協調があり、より正確な分業があり、より柔軟で専門的です。このアプローチは、MoEと比較して、より高い効率と、より低いAPIインターフェースとトークン使用コストを持っています。

では、MoEとCoEのどちらのアプローチがより優位に立つでしょうか?

もう一つの解決アプローチ:ユーザーの知能体験を決定するものは何か?

周鴻祎が赤い服を着てAIの教父に転身したとき、360社内では、CoEとMoEのアプローチについての議論が、この1年余りの間に繰り返し行われました。

MoEを選択すれば、360の長年の技術の蓄積は、この戦いを完遂するのに十分です。

一方、CoEを選択すれば、より多くの大規模言語モデルメーカーと市場を分け合うことになります。

「三人寄れば文殊の知恵」という言葉が360グループの副社長梁志輝にヒントを与え、CoEに賭けることにしました:

一つの企業が、たとえOpenAIのような「8種目すべて」を達成しても、依然として短所が存在します。しかし、最も優れた大規模言語モデル企業の能力をCoE能力を通じて結集すれば、それは長所の相互補完と真の18種目すべての実現を意味します。

評価結果によると、360 CoE AI能力に基づくAIアシスタントのベータ版は、360智脳を含む国内最強の16の大規模言語モデルの長所を集結させた結果、11の個別能力テスト指標でGPT-4を超えています。

同時に、基盤となる大規模言語モデルの能力を「アウトソース」しても、360はCoEの波の中で独自のポジションを見出すことができます。

製品レベルで見ると、360 CoE製品のAIアシスタントは2つの部分に分けることができます:コーパスの蓄積とアルゴリズム技術は、主に360智脳を含む16の国産大規模言語モデルの接続に依存しており、これは異なる役割を持つ特殊部隊のようなものです;一方、360は指揮官の役割を果たし、意図認識モデルを通じてユーザーの意図をより正確に理解し;タスク分解と調整モデルを通じて、多数の専門家モデルネットワーク(100+LLM)、数千億規模の知識ハブ、200以上のサードパーティツールのインテリジェントな調整を実現し、MoEよりも高い柔軟性と効率を実現しています。