OpenAIが小型モデルの激しい競争を引き起こし、アップルのDCLMが突如登場し、性能がMistral 7Bを全面的に上回り、完全にオープンソース化

小型人工知能モデルの競争がますます激しくなっています。大手テクノロジー企業やスタートアップ企業が次々とこの分野に参入し、自社の軽量AIソリューションを競って発表しています。この激しい競争は技術革新だけでなく、市場シェアと商業応用にも関わっています。競争が激化するにつれて、より効率的で低コストのAI製品が登場し、さまざまな産業に新たな可能性をもたらす可能性があります。

小規模モデル時代が到来し、OpenAI、Mistral AI、HuggingFace、そして今やAppleといった主要プレイヤーがコンパクトな言語モデルをリリースしています。

Appleは、70億パラメータと14億パラメータのバージョンを含むDCLM(Data-Centric Language Model)シリーズで、小規模モデル分野に参入しました。7Bモデルは、Mistral-7Bを上回り、Llama 3やGemmaの能力に迫っています。

AppleのMLリサーチャーであるVaishaal Shankarによると、DCLMは重み、トレーニングコード、オープンデータセットがすべて公開されている、これまでで最高のパフォーマンスを持つ「真にオープンソース」のモデルだとのことです。この完全にオープンなアプローチは、AI界から称賛を集めています。

DCLM-7Bモデルはデコーダーのみのアーキテクチャを使用し、4兆トークンのデータセットからフィルタリングされた2.5兆トークンで訓練されました。コンテキスト長は2048トークンです。性能評価では、複数のベンチマークにおいて、同様のサイズの他のオープンデータモデルを上回る性能を示しています。

DCLM-7Bの性能はMistral-7BやGemma 8Bなどのモデルと同等ですが、Phi-3のようなクローズドデータモデルには及びません。しかし、研究者たちは訓練データとコンテキスト長を拡張することでさらなる改善が見られることを発見しました。

DCLM-1.4Bバージョンは、そのサイズに対して特に強力な結果を示し、一部の指標ではSmolLM、Qwen-1.5B、Phi-1.5Bなどのモデルを上回っています。

DCLMモデルは、モデルサイズを拡大するのではなく、高品質な訓練データのキュレーションに焦点を当てたDataCompベンチマークに基づいて構築されています。これは、多くのテック大手がモデルアーキテクチャよりも訓練データを重視する傾向と一致しています。

大規模言語モデルが進化を続ける一方で、主要なAI研究所はより小規模で効率的なモデルに対する関心を高めています。Appleが完全にオープンソースのモデルでこの分野に参入したことで、コンパクトながら高性能な言語モデルの進歩が加速する可能性があります。