開源AI新王者:Llama 3.1洩露超越GPT-4o

Meta旗下的Llama 3.1模型再次遭遇提前洩露,引發開發者社群熱議。此次洩露的最大規模模型達405B參數,同時8B和70B版本也有所升級。整個模型套件總容量約820GB。初步基準測試結果令人驚嘆,相關下載連結在網路上廣泛傳播。

Llama 3.1 系列,明天發布

根據洩露的模型卡片,Llama 3.1 將於 23 日發布。

許可證為「自定義商業許可」和「Llama 3.1 社區許可」。

具體來說,Llama 3.1 系列多語言大型語言模型是一組預訓練和指令微調的生成模型,包括 8B、70B 和 405B 參數規模。

經指令微調的 Llama 3.1 純文本模型(8B、70B、405B)針對多語言對話用例進行了優化。

除英語外,還支持德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語等 7 種語言。

根據介紹,Llama 3.1 的新功能包括更長的上下文、支持多語言輸入和輸出,以及與開發者和第三方工具的集成。

基準測試

GitHub 上的一張基準圖表(現已 404)顯示了 Llama 3.1 在基準測試中的出色表現。

具體而言,在預訓練模型的基準評估中,Llama 3.1 405B 在通用任務、知識推理和閱讀理解方面創下新紀錄。

在 MMLU 和 SQuAD 子基準測試中的改進最為顯著。

同時,Llama 3.1 的 8B 和 70B 參數版本相比 Llama 3 略有改進。然而,在某些指標上,70B Llama 3.1 的表現仍不如其前身。

此外,在指令微調模型中,Llama 3.1 405B 明顯比預訓練模型更強。它在推理、編碼、數學、工具使用和多語言基準測試中顯著優於微調後的 8B 和 70B 版本。

Llama 3.1 8B 和 70B 微調模型在多項能力任務中也表現出顯著的性能改進。

一些網友匯編了其他領先模型的基準測試,通過比較顯示 Claude 3.5 Sonnet 是所有基準測試中的冠軍。

Llama 3.1 405B 的微調版本僅在 MMLU Pro 數學基準測試中表現最佳,以 73.3% 的分數擊敗所有大型模型。

此外,405B 在 GPQA(研究生水平專業知識和推理)、數學、DROP(閱讀理解)、MGSM(多語言數學)、HumanEval(編程)和 BBH(知識評估)基準測試中與 GPT-4o 不相上下。

此外,405B 明顯優於最新的 GPT-4o mini 模型。

Llama 3.1 是一個使用優化的 Transformer 架構的自回歸語言模型。調整後的版本使用 SFT 和 RLHF 來與人類安全偏好保持一致。

對於 Llama 3.1 系列模型,token 計數僅指預訓練數據。

所有模型版本都使用分組查詢注意力(GQA)來提高推理可擴展性。

15T Token 訓練數據

與 Llama 3 一樣,Llama 3.1 在大約 15 萬億個來自公開來源的 token 上進行了預訓練。

微調數據包括公開可用的指令數據集,以及超過 2500 萬個合成樣本,預訓練數據截止到 2023 年 12 月。

可用於商業和研究用途

Llama 3.1 支持在多語言環境中進行商業和研究使用。

經指令微調的純文本模型適用於聊天助手,而預訓練模型可適應各種自然語言生成任務。Llama 3.1 模型集合還支持使用其模型輸出來改進其他模型,包括合成數據生成和模型蒸餾。

違反法律法規、使用政策和 Llama 3.1 社區許可的使用,或超出支持語言範圍的使用,均不在適用範圍內。

該團隊強調,Llama 3.1 在 8 種支持語言之外的更廣泛語言集上進行了訓練。開發者可以對其進行微調以用於其他語言,前提是遵守社區許可等政策並確保安全和負責任的使用。

3930 萬 GPU 小時的訓練

對於預訓練,Meta 使用了自定義訓練庫、Meta 的自定義 GPU 集群和生產基礎設施。微調、註釋和評估也在生產基礎設施上進行。

訓練累計使用了 3930 萬 GPU 小時的計算時間,硬件類型為 H100-80GB(700W TDP)。

訓練時間是訓練每個模型所需的總 GPU 時間,功耗是每個 GPU 設備的峰值功率容量,經過功率使用效率調整。