Appleはオープンソースの大規模言語モデル分野に、他社よりもオープンなアプローチで参入しました。彼らは7Bパラメータのモデルをリリースし、Llama 3 8Bと同等の性能を発揮しながら、トレーニングプロセスとリソース全体をオープンソース化しました。
この動きは、多くの所謂オープンソースAIモデルがデータとトレーニング方法の透明性に欠け、真の科学研究のニーズを満たしていないという、Nature編集者Elizabeth Gibneyによる最近の批判を受けてのものです。Appleのリリースはこれらの懸念に正面から取り組んでいます。
NLP科学者でAutoAWQの作者は、AppleがMistral 7Bを上回るモデルをリリースしただけでなく、事前トレーニングデータセットを含むすべてをオープンソース化したことに驚きを表明しました。
このオープンソースリリースの重要性は、コミュニティメンバーによって強調されました:
モデルをゼロから訓練したり、既存のモデルを微調整したりする人にとって、データ管理プロセスを研究することは不可欠です。
Appleのリリースに加えて、Mistral AIはNVIDIAと提携して先週12Bパラメータの小型モデルを発表しました。HuggingFaceの創設者はこれを「小型モデル週間」と宣言しました。
Appleの新しい小型モデルは印象的な能力を示しています:
- オープンデータセットを使用して2.5Tトークンで訓練された7Bベースモデル
- 主に英語データで2048トークンのコンテキストウィンドウ
- データセットにはDCLM-BASELINE、StarCoder、ProofPile2が含まれる
- Llama 3 8Bに迫るMMLUスコア
- PyTorchとOpenLMフレームワークを使用して訓練
研究チームは、DCLMと呼ばれる新しい言語モデルデータ比較ベンチマークを導入しました。彼らは、機械学習モデルを使用して大規模データセットから高品質のデータを自動的にフィルタリングして選択することが、高品質な訓練セットを構築する鍵となる可能性があることを発見しました。
DCLMを使用して、7BパラメータのDCLM-7Bモデルをゼロから訓練するための高品質データセットDCLM-BASELINEを設計しました。
DCLM-7BはMMLUベンチマークで64%の5ショット精度を達成し、Mistral-7B-v0.3(63%)やLlama 3 8B(66%)と同等の性能を示しました。また、53の自然言語理解タスクにおいてLlama 3 8Bの平均性能に匹敵し、計算量は1/6で済みました。
同サイズの他のモデルと比較して、DCLM-7BのMMLUスコアはMistral-7Bを上回り、Llama 3 8Bに迫りました。
新しいデータセットの有効性をテストするため、業界の専門家がllm.cを使用してGPT-2 1.5Bをトレーニングし、DCLM-BaselineとFineWeb-Eduを比較しました。結果は、DCLM-Baselineがより高い平均スコアを達成し、ARC、HellaSwag、MMLUなどのタスクでより良い性能を示しました。
小型モデルへの傾向が勢いを増しています:
- HuggingFaceは「SmolLM」ファミリーの小型モデル(135M、360M、1.7B)を発表
- OpenAIはGPT-4の能力に迫りながらコストを抑えたGPT-4o miniをリリース
- Mistral AIとNVIDIAは12BパラメータのMistral NeMoモデルをリリース
小型モデルへのシフトは、大型モデルと同等の性能を達成しながらコストを大幅に削減できる能力によって推進されています。smol AIの創設者が示したように、GPT-4o miniのようなモデルは、大型の代替モデルと比較して全体的な価格が低くなっています。