大規模モデルが使えないのではなく、小規模モデルの方がコストパフォーマンスが高い
AI業界の広大な世界で、小規模モデルには常に独自の伝説がある。
外を見ると、昨年話題を呼んだMistral 7Bは発表直後に「最高の7Bモデル」と称賛され、多くの評価基準でLlama 2の13Bパラメータモデルを上回り、推論、数学、コード生成の面でLlama 34Bを凌駕した。
今年、マイクロソフトも最強の小規模大規模言語モデルphi-3-miniをオープンソース化した。パラメータ数はわずか3.8Bだが、性能評価の結果は同等規模のモデルをはるかに上回り、GPT-3.5やClaude-3 Sonnetなどのより大規模なモデルに匹敵する。
国内に目を向けると、Wallfacingは2月初めに、わずか2Bパラメータ規模の端末側言語モデルWallfacing MiniCPMをリリースした。より小さなサイズでより強力な性能を実現し、フランスの人気大規模モデルMistral-7Bを性能で上回り、「小さな大砲」と呼ばれている。
最近、わずか8BパラメータサイズのMiniCPM-Llama3-V2.5は、マルチモーダル総合性能やOCR能力などの面でGPT-4VやGemini Proなどのより大規模なモデルを凌駕し、そのためスタンフォード大学のAIチームに盗用されるという事態も起きた。
先週、OpenAIが深夜に発表した「最も機能が強力でコストパフォーマンスが最高の小規模パラメータモデル」と称されるGPT-4o miniは、圧倒的な勢いで人々の注目を再び小規模モデルに引き戻した。
OpenAIが世界中を生成AIの想像の世界に引き込んで以来、長文脈の競争からパラメータ競争、エージェント、そして現在の価格戦争に至るまで、国内外の発展は常に一つの論理を中心に展開してきた - 商業化を通じてゲームに残ることだ。
そのため、様々な議論の場で最も注目を集めているのは、値下げしたOpenAIも価格戦争に参入しようとしているように見えることだ。
多くの人々はGPT-4o miniの価格について明確な概念を持っていないかもしれない。GPT-4o miniは100万入力トークンあたり15セント、100万出力トークンあたり60セントで、GPT-3.5 Turboより60%以上安い。
つまり、GPT-4o miniで2500ページの本を生成するのに必要な費用はわずか60セントということだ。
OpenAIのCEO Sam Altmanも、Xで感慨深げに述べている。2年前の最強モデルと比較して、GPT-4o miniは性能の差が大きいだけでなく、使用コストは当時の100分の1だという。
大規模モデルの価格戦争がますます激しくなる中、効率的で経済的なオープンソースの小規模モデルも市場の注目を集めやすくなっている。結局のところ、大規模モデルが使えないのではなく、小規模モデルの方がコストパフォーマンスが高いのだ。
一方で、世界中でGPUが買い占められ品薄状態になっている状況下で、トレーニングと展開コストが低いオープンソースの小規模モデルは徐々に優位性を獲得しつつある。
例えば、Wallfacingが発表したMiniCPMは、比較的小さなパラメータ数で推論コストを劇的に削減し、CPUでの推論さえ可能にした。1台のマシンで継続的なパラメータトレーニングを行い、1枚のGPUでパラメータの微調整を行うだけで、継続的な改善のためのコスト余地も残されている。
成熟した開発者であれば、自分で小規模モデルを構築して法律分野の垂直モデルをトレーニングすることも可能で、その推論コストは大規模モデルを微調整して使用する場合の1000分の1程度になる可能性がある。
端末側の「小規模モデル」の応用展開により、多くのメーカーが収益化の兆しを見出している。例えば、Wallfacingは深圳市中級人民法院の人工知能支援裁判システムの運用開始を支援し、市場にその技術の価値を証明した。
もちろん、より正確に言えば、我々が目にし始める変化は大規模モデルから小規模モデルへの移行ではなく、単一カテゴリのモデルからモデルの組み合わせへの移行であり、適切なモデルの選択は組織の具体的なニーズ、タスクの複雑さ、利用可能なリソースに依存する。
他方、小規模モデルはモバイルデバイス、組み込みシステム、低電力環境での展開と統合がより容易である。
小規模モデルのパラメータ規模は比較的小さく、大規模モデルと比較して計算リソース(AI計算能力、メモリなど)の要求が低く、リソースが制限された端末デバイスでよりスムーズに動作できる。また、端末デバイスは通常、消費電力や発熱などの問題に対してより厳しい要求があり、特別に設計された小規模モデルは端末デバイスの制限により適合できる。
Honorの趙明CEOは、端末側ではAI計算能力の問題により、パラメータが1Bから10Bの間になる可能性があると述べている。ネットワーク大規模モデルのクラウドコンピューティング能力は100億から1000億、さらにはそれ以上に達する可能性があり、これが両者の能力の差となる。
スマートフォンは非常に限られたスペース内にあります。限られたバッテリー、限られた放熱、限られたストレージ環境下で70億をサポートすることを想像してみてください。これほど多くの制約条件の中で、それは間違いなく最も困難なことです。
我々はまた、アップルのインテリジェンスを担当する裏方の功労者を明らかにしたことがある。その中で、要約や洗練などのタスク専用に微調整された3B小規模モデルは、アダプターの支援を受けて、Gemma-7Bよりも優れた能力を持ち、スマートフォンの端末で実行するのに適している。
そのため、元OpenAIの天才Andrej Karpathyも最近、モデルサイズの競争は「逆内向き」になり、より大きくなるのではなく、誰がより小さく柔軟になるかを競うようになるだろうという判断を示している。
小規模モデルはなぜ小さくても大きなモデルに勝てるのか
Andrej Karpathyの予測は根拠のないものではない。
このデータ中心の時代において、モデルは急速により大規模で複雑になっている。大量のデータでトレーニングされた超大規模モデル(GPT-4など)の大部分は、実際には大量の重要でない細部を記憶するために使用されている。つまり、資料を丸暗記しているのだ。
しかし、微調整されたモデルは特定のタスクにおいて「小さくても大きなモデルに勝つ」ことができ、その使いやすさは多くの「超大規模モデル」に匹敵する。
Hugging FaceのCEO Clem Delangueも、ユースケースの99%までが小規模モデルの使用で解決できると提案し、2024年は小規模言語モデルの年になると予測している。
その理由を探る前に、いくつかの知識を紹介する必要がある。
2020年、OpenAIは論文で有名な法則を提唱した:Scaling law。これは、モデルのサイズが大きくなるにつれて、その性能も向上するというものだ。GPT-4などのモデルの登場により、Scaling lawの利点も徐々に明らかになってきた。
AI分野の研究者とエンジニアは、モデルのパラメータ数を増やすことで、モデルの学習能力と汎化能力をさらに向上させることができると確信している。こうして、我々はモデルの規模が数十億パラメータから数千億へと飛躍し、さらには兆単位のパラメータ規模のモデルへと登っていくのを目撃してきた。
AIの世界では、モデルの規模はその知能を測る唯一の基準ではない。
むしろ、巧妙に設計された小規模モデルは、アルゴリズムの最適化、データ品質の向上、先進的な圧縮技術の採用を通じて、しばしば特定のタスクにおいて大規模モデルに匹敵する、あるいはそれ以上の性能を示すことができる。
この小さなもので大きなものに挑む戦略は、AI分野の新しいトレンドになりつつある。その中で、データ品質の向上は小規模モデルが小さくても大きなモデルに勝つ方法の一つだ。
CoalesceのCTO兼共同創業者Satish Jayanthiは、データのモデルへの影響をこのように表現している:
17世紀にLLMがあり、ChatGPTに地球が丸いか平らかを尋ねたら、地球は平らだと答えるでしょう。それは、我々が提供したデータがそれを事実だと信じさせたからです。LLMに提供するデータと我々のトレーニング方法は、その出力に直接影響を与えます。
高品質の結果を生み出すために、大規模言語モデルは特定のトピックや分野に焦点を当てた高品質で的を絞ったデータでのトレーニングを必要とする。学生が質の高い教材で学ぶ必要があるように、LLMも質の高いデータソースを必要とするのだ。