小規模モデル時代が到来し、OpenAI、Mistral AI、HuggingFace、そして今やAppleといった主要プレイヤーがコンパクトな言語モデルをリリースしています。
Appleは、70億パラメータと14億パラメータのバージョンを含むDCLM(Data-Centric Language Model)シリーズで、小規模モデル分野に参入しました。7Bモデルは、Mistral-7Bを上回り、Llama 3やGemmaの能力に迫っています。
AppleのMLリサーチャーであるVaishaal Shankarによると、DCLMは重み、トレーニングコード、オープンデータセットがすべて公開されている、これまでで最高のパフォーマンスを持つ「真にオープンソース」のモデルだとのことです。この完全にオープンなアプローチは、AI界から称賛を集めています。
DCLM-7Bモデルはデコーダーのみのアーキテクチャを使用し、4兆トークンのデータセットからフィルタリングされた2.5兆トークンで訓練されました。コンテキスト長は2048トークンです。性能評価では、複数のベンチマークにおいて、同様のサイズの他のオープンデータモデルを上回る性能を示しています。
DCLM-7Bの性能はMistral-7BやGemma 8Bなどのモデルと同等ですが、Phi-3のようなクローズドデータモデルには及びません。しかし、研究者たちは訓練データとコンテキスト長を拡張することでさらなる改善が見られることを発見しました。
DCLM-1.4Bバージョンは、そのサイズに対して特に強力な結果を示し、一部の指標ではSmolLM、Qwen-1.5B、Phi-1.5Bなどのモデルを上回っています。
DCLMモデルは、モデルサイズを拡大するのではなく、高品質な訓練データのキュレーションに焦点を当てたDataCompベンチマークに基づいて構築されています。これは、多くのテック大手がモデルアーキテクチャよりも訓練データを重視する傾向と一致しています。
大規模言語モデルが進化を続ける一方で、主要なAI研究所はより小規模で効率的なモデルに対する関心を高めています。Appleが完全にオープンソースのモデルでこの分野に参入したことで、コンパクトながら高性能な言語モデルの進歩が加速する可能性があります。