蘋果意外公開7B大語言模型,連同訓練數據一併發布,引發網民驚嘆:這般開放不符蘋果風格

性能可媲美Llama 3 8B模型

Apple 進入開源大型語言模型領域,採取比其他公司更開放的方式。他們發布了一個 7B 參數的模型,性能可與 Llama 3 8B 相媲美,同時開源了整個訓練過程和資源。

此舉是在 Nature 編輯 Elizabeth Gibney 最近批評許多所謂的開源 AI 模型缺乏數據和訓練方法透明度,無法滿足真正的科學研究需求之後。Apple 的發布直接解決了這些問題。

NLP 科學家和 AutoAWQ 創始人表示驚訝,指出 Apple 不僅發布了一個勝過 Mistral 7B 的模型,還開源了包括預訓練數據集在內的所有內容。

一位社群成員強調了這次開源發布的重要性:

對於任何想從頭開始訓練模型或微調現有模型的人來說,研究數據管理過程至關重要。

除了 Apple 的發布,Mistral AI 上週與 NVIDIA 合作推出了一個 12B 參數的小型模型。HuggingFace 創始人稱之為"小型模型週"。

Apple 的新小型模型展示了令人印象深刻的能力:

  • 使用 2.5T 標記在開放數據集上訓練的 7B 基礎模型
  • 主要為英語數據,具有 2048 標記上下文窗口
  • 數據集包括 DCLM-BASELINE、StarCoder 和 ProofPile2
  • MMLU 分數接近 Llama 3 8B
  • 使用 PyTorch 和 OpenLM 框架訓練

研究團隊引入了一個新的語言模型數據比較基準 DCLM。他們發現,使用機器學習模型自動過濾和選擇大型數據集中的高質量數據可能是構建高質量訓練集的關鍵。

使用 DCLM,他們設計了一個高質量數據集 DCLM-BASELINE,用於從頭開始訓練 7B 參數的 DCLM-7B 模型。

DCLM-7B 在 MMLU 基準測試中達到 64% 的 5-shot 準確率,可與 Mistral-7B-v0.3 (63%) 和 Llama 3 8B (66%) 相媲美。它還在 53 個自然語言理解任務中匹配了 Llama 3 8B 的平均性能,同時只需要 1/6 的計算量。

與其他類似規模的模型相比,DCLM-7B 的 MMLU 分數超過了 Mistral-7B,接近 Llama 3 8B。

為了測試新數據集的有效性,一位業界專業人士使用 llm.c 訓練了 GPT-2 1.5B,比較了 DCLM-Baseline 和 FineWeb-Edu。結果顯示 DCLM-Baseline 達到了更高的平均分數,在 ARC、HellaSwag 和 MMLU 等任務上表現更好。

小型模型的趨勢正在獲得動力:

  • HuggingFace 推出了"SmolLM"系列小型模型 (135M、360M、1.7B)
  • OpenAI 發布了 GPT-4o mini,以較低成本接近 GPT-4 的能力
  • Mistral AI 和 NVIDIA 發布了 12B 參數的 Mistral NeMo 模型

向小型模型轉變的趨勢是由於它們能夠在顯著降低成本的同時達到與大型模型相當的性能。正如 smol AI 創始人所展示的,像 GPT-4o mini 這樣的模型與大型替代品相比,提供了更低的整體定價。