大規模言語モデルの分野:オープンソースの真相はどうなっているのか?

オープンソースの大規模言語モデルについて議論する際、私たちは自由に入手、使用、修正できる人工知能言語システムに焦点を当てます。これらのモデルは膨大なテキストデータで訓練され、人間の言語を理解し生成することができ、様々なアプリケーションの基盤となります。私たちはそれらの技術的特徴、発展傾向、応用の可能性、そして人工知能分野への影響に注目します。

オープンソースソフトウェアの開発は通常、互恵的な協力と同僚生産の原則に従い、生産モジュール、通信パイプライン、インタラクティブコミュニティの改善を促進します。代表的な例にはLinux、Mozilla Firefoxがあります。

クローズドソースソフトウェア(プロプライエタリソフトウェア)は、商業的またはその他の理由により、ソースコードを公開せず、コンピュータが読み取り可能なプログラム(バイナリ形式など)のみを提供します。ソースコードは開発者のみが保有し、管理します。代表的な例にはWindows、Androidがあります。

オープンソースはソフトウェア開発モデルの一つで、開放性、共有、協力に基づき、皆がソフトウェアの開発と改善に参加することを奨励し、技術の継続的な進歩と広範な応用を推進します。

クローズドソース開発を選択したソフトウェアは、より安定した、焦点を絞った製品になる可能性が高いですが、通常は有料で、エラーや機能不足がある場合、開発者による問題解決を待つしかありません。

オープンソース大規模モデルについては、オープンソースソフトウェアのような明確な業界の合意はありません。

大規模言語モデルのオープンソースとソフトウェアのオープンソースは理念的に類似しており、両者とも開放性、共有、協力に基づき、コミュニティの共同参加による開発と改善を奨励し、技術の進歩と透明性の向上を推進します。

しかし、実装とニーズには顕著な違いがあります。

ソフトウェアのオープンソースは主にアプリケーションやツールを対象とし、必要なリソースは比較的少ないのに対し、大規模言語モデルのオープンソースは大量の計算リソースと高品質のデータを必要とし、より多くの使用制限がある可能性があります。したがって、両者のオープンソースは革新と技術普及を促進することを目的としていますが、大規模言語モデルのオープンソースはより複雑で、コミュニティの貢献形態も異なります。

李彦宏も両者の違いを強調し、モデルのオープンソースはコードのオープンソースと同じではないと述べています:「モデルのオープンソースでは一連のパラメータしか得られず、さらにSFT(監督付き微調整)や安全性の調整が必要です。対応するソースコードを入手しても、これらのパラメータを訓練するのにどれだけの割合、どのようなデータを使用したかは分かりません。多くの人の力を結集することはできず、これらのものを手に入れても、巨人の肩の上に立って反復開発することはできません。」

大規模言語モデルの全プロセスのオープンソース化には、モデル開発の全過程、つまりデータ収集、モデル設計、トレーニング、デプロイメントまでのすべての段階を公開し透明にすることが含まれます。この方法には、データセットの公開やモデルアーキテクチャの開放だけでなく、トレーニングプロセスのコード共有や事前学習済みモデルの重みの公開も含まれます。

過去1年間で、大規模言語モデルの数は大幅に増加し、多くがオープンソースを標榜していますが、それらは本当にどれほどオープンなのでしょうか?

オランダのラドバウド大学の人工知能研究者Andreas Liesenfeld氏と計算言語学者Mark Dingemanse氏も、「オープンソース」という言葉が広く使用されているにもかかわらず、多くのモデルは「オープンウェイト」に過ぎず、システム構築に関する他のほとんどの側面は隠されていることを発見しました。

例えば、MetaやMicrosoftなどの技術企業は大規模言語モデルを「オープンソース」と称していますが、基盤技術に関する重要な情報は公開していません。彼らを驚かせたのは、リソースの少ないAI企業や機関の方がより称賛に値する性能を示したことです。

この研究チームは、一連の人気の「オープンソース」大規模言語モデルプロジェクトを分析し、コード、データ、重み、API、ドキュメントなど多くの側面からその実際のオープン度を評価しました。研究ではOpenAIのChatGPTをクローズドソースの参照点として使用し、「オープンソース」プロジェクトの実態を浮き彫りにしました。

✔はオープン、~は部分的にオープン、Xはクローズドを示します

結果は、プロジェクト間で顕著な差異があることを示しています。このランキングによると、Allen Institute for AIのOLMoが最もオープンなオープンソースモデルで、次いでBigScienceのBloomZが続きます。両者とも非営利組織によって開発されています。

論文によると、MetaのLlamaやGoogle DeepMindのGemmaは自らをオープンソースまたはオープンと称していますが、実際には重みのみを開放しており、外部の研究者は事前学習済みモデルにアクセスして使用できますが、モデルを検査またはカスタマイズすることはできず、特定のタスクに対してモデルがどのように微調整されているかも分かりません。

最近、LLaMA 3とMistral Large 2のリリースが広く注目を集めました。モデルのオープン性に関して、LLaMA 3はモデルの重みを公開し、ユーザーはこれらの事前学習済みおよび指示微調整済みモデルの重みにアクセスして使用できます。さらに、Metaはモデルの事前学習と指示微調整のための基本的なコードも提供していますが、完全なトレーニングコードは提供していません。LLaMA 3のトレーニングデータも公開されていません。ただし、今回MetaはLLaMA 3.1 405Bに関する93ページの技術報告書を提供しました。

Mistral Large 2の状況も同様で、モデルの重みとAPIに関しては比較的高い開放度を維持していますが、完全なコードとトレーニングデータに関しては開放度が低くなっています。商業的利益とオープン性のバランスを取る戦略を採用し、研究利用は許可していますが商業利用には制限を設けています。

Googleは、モデルを説明する際に「言語的に非常に正確」であると述べており、Gemmaをオープンソースではなくオープンと呼んでいます。「既存のオープンソースの概念はAIシステムに常に直接適用できるわけではありません」と彼らは述べています。

この研究の重要な背景の一つは、EUの人工知能法案です。この法案が発効すると、オープンと分類されるモデルにはより緩やかな規制が適用されるため、オープンソースの定義がより重要になる可能性があります。

研究者たちは、イノベーションの唯一の道はモデルを調整することであり、そのためには自分のバージョンを構築するのに十分な情報が必要だと述べています。さらに、モデルは審査を受ける必要があります。例えば、モデルが大量のテストサンプルで訓練されている場合、特定のテストに合格することは必ずしも成果とは言えません。

彼らは、これほど多くのオープンソースの代替案が登場したことを喜ばしく思っています。ChatGPTは非常に人気がありますが、そのトレーニングデータや他の舞台裏の手法について何も知らないことを忘れさせてしまうほどです。モデルをより深く理解したい人や、それに基づいてアプリケーションを構築したい人にとって、これは潜在的な問題です。オープンソースの代替案は、重要な基礎研究を可能にします。

シリコンスターも中国国内の一部のオープンソース大規模言語モデルのオープンソース状況を統計しました:

表から、海外の状況と同様に、オープンソースが徹底されているモデルは基本的に研究機関が主導していることがわかります。これは主に、研究機関の目標が科学研究の進歩と産業発展を推進することであり、研究成果をより開放する傾向があるためです。

一方、商業企業はそのリソース優位性を活用して、より強力なモデルを開発し、適切なオープンソース戦略を通じて競争において優位性を獲得しています。

GPT-3からBERTに至るまで、オープンソースは大規模モデルのエコシステムに重要な推進力をもたらしました。

アーキテクチャとトレーニング方法を公開することで、研究者や開発者はこれらの基礎の上でさらなる探索と改善を行うことができ、より多くの最先端の技術とアプリケーションを生み出しています。

オープンソース大規模モデルの出現は、開発の敷居を大幅に下げました。開発者や中小企業は、ゼロからモデルを構築する必要なく、これらの先進的なAI技術を利用できるようになり、大量の時間とリソースを節約しました。これにより、より多くの革新的なプロジェクトと製品が迅速に実現し、業界全体の発展を推進しました。開発者たちがオープンソースプラットフォーム上で最適化方法とアプリケーション事例を積極的に共有することも、技術の成熟とアプリケーションを促進しました。

教育と科学研究にとって、オープンソース大規模言語モデルは貴重なリソースを提供しています。学生や新人開発者は、これらのモデルを研究し使用することで、先進的なAI技術を迅速に習得し、学習曲線を短縮し、業界に新しい血を送り込むことができます。

しかし、大規模言語モデルのオープン性は単純な二元的特性ではありません。Transformerベースのシステムアーキテクチャとそのトレーニングプロセスは非常に複雑で、単純にオープンまたはクローズドに分類することは困難です。オープンソース大規模モデルは単純なラベルではなく、完全オープンソースから部分的オープンソースまでの幅広いスペクトルのようなものです。

大規模言語モデルのオープンソース化は複雑で細かい作業であり、すべてのモデルをオープンソース化する必要はありません。

また、「道徳的な束縛」の方法で全面的なオープンソース化を要求すべきではありません。なぜなら、これには大量の技術、リソース、安全性の考慮が関わっており、開放性と安全性、革新と責任のバランスを取る必要があるからです。技術分野の他の側面と同様に、多様な貢献方法こそが、より豊かな技術エコシステムを構築できるのです。

オープンソースモデルとクローズドソースモデルの関係は、おそらくソフトウェア業界におけるオープンソースソフトウェアとクローズドソースソフトウェアの共存に例えることができるでしょう。

オープンソースモデルは技術の広範な普及と革新を促進し、一方でクローズドソースモデルは特定の分野でより専門的で安全なソリューションを提供しています。両者は相互に補完し合い、人工知能技術の発展を共に推進しています。

将来的には、技術共有と商業的利益のバランスを取るために、部分的オープンソースや条件付きオープンソースなど、より多くのハイブリッドモデルが登場する可能性があります。

オープンソースであれクローズドソースであれ、重要なのはモデルの安全性、信頼性、倫理性を確保することです。これには業界、学術界、規制機関の共同努力が必要であり、AI技術の健全な発展を確保するための適切な基準と規範を策定する必要があります。

総じて、オープンソースとクローズドソースの大規模言語モデルにはそれぞれ利点と制限があります。オープンソースモデルは技術の広範な普及と革新を促進し、クローズドソースモデルは特定の分野でより専門的で安全なソリューションを提供しています。両者の共存と競争は、AI業界全体を前進させ、ユーザーにより多くの選択肢とより良い体験をもたらすでしょう。

将来的には、技術共有と商業的利益のバランスを取るために、部分的オープンソースや条件付きオープンソースなど、より多くのハイブリッドモデルが登場する可能性があります。どのようなモデルを採用するにせよ、モデルの安全性