OpenAI引發小型模型激烈競爭,蘋果DCLM橫空出世,性能全面超越Mistral 7B並完全開源

小型人工智能模型的競爭愈發激烈。各大科技公司和初創企業紛紛投入這一領域,爭相推出自己的輕量級AI解決方案。這場激烈的角逐不僅涉及技術創新,還關乎市場份額和商業應用。隨著競爭加劇,我們可能會看到更多高效、低成本的AI產品問世,為各行各業帶來新的可能性。

小型模型時代已經來臨,主要參與者如OpenAI、Mistral AI、HuggingFace,現在連蘋果也加入發布小型語言模型的行列。

蘋果推出了新的DCLM(Data-Centric Language Model)系列,進軍小型模型領域,包括70億和14億參數的版本。70億參數模型的表現優於Mistral-7B,並接近Llama 3和Gemma的能力。

根據蘋果機器學習研究員Vaishaal Shankar的說法,DCLM是迄今為止表現最佳的「真正開源」模型,其權重、訓練代碼和開放數據集都公開可用。這種完全開放的方式贏得了人工智能社群的讚譽。

DCLM-7B模型採用僅解碼器架構,在從4萬億個標記中過濾出的2.5萬億個標記上進行訓練。它的上下文長度為2048個標記。性能評估顯示,它在多項基準測試中優於同等規模的其他開放數據模型。

雖然DCLM-7B的性能可與Mistral-7B和Gemma 8B等模型相媲美,但在某些方面仍落後於Phi-3等封閉數據模型。然而,研究人員發現,通過擴展訓練數據和上下文長度,可以進一步提升性能。

DCLM的1.4B版本在其規模內表現特別出色,在某些指標上優於SmolLM、Qwen-1.5B和Phi-1.5B等模型。

DCLM模型建立在DataComp基準之上,該基準專注於精選高質量的訓練數據,而不僅僅是擴大模型規模。這與許多科技巨頭越來越重視訓練數據而非模型架構的趨勢相符。

雖然大型語言模型持續進步,但主要人工智能實驗室對更小、更高效的模型越來越感興趣。蘋果以完全開源模型進入這一領域,可能有助於加速小型但功能強大的語言模型的發展。