Llama 3.1 系列,明天發布
根據洩露的模型卡片,Llama 3.1 將於 23 日發布。
許可證為「自定義商業許可」和「Llama 3.1 社區許可」。
具體來說,Llama 3.1 系列多語言大型語言模型是一組預訓練和指令微調的生成模型,包括 8B、70B 和 405B 參數規模。
經指令微調的 Llama 3.1 純文本模型(8B、70B、405B)針對多語言對話用例進行了優化。
除英語外,還支持德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語等 7 種語言。
根據介紹,Llama 3.1 的新功能包括更長的上下文、支持多語言輸入和輸出,以及與開發者和第三方工具的集成。
基準測試
GitHub 上的一張基準圖表(現已 404)顯示了 Llama 3.1 在基準測試中的出色表現。
具體而言,在預訓練模型的基準評估中,Llama 3.1 405B 在通用任務、知識推理和閱讀理解方面創下新紀錄。
在 MMLU 和 SQuAD 子基準測試中的改進最為顯著。
同時,Llama 3.1 的 8B 和 70B 參數版本相比 Llama 3 略有改進。然而,在某些指標上,70B Llama 3.1 的表現仍不如其前身。
此外,在指令微調模型中,Llama 3.1 405B 明顯比預訓練模型更強。它在推理、編碼、數學、工具使用和多語言基準測試中顯著優於微調後的 8B 和 70B 版本。
Llama 3.1 8B 和 70B 微調模型在多項能力任務中也表現出顯著的性能改進。
一些網友匯編了其他領先模型的基準測試,通過比較顯示 Claude 3.5 Sonnet 是所有基準測試中的冠軍。
Llama 3.1 405B 的微調版本僅在 MMLU Pro 數學基準測試中表現最佳,以 73.3% 的分數擊敗所有大型模型。
此外,405B 在 GPQA(研究生水平專業知識和推理)、數學、DROP(閱讀理解)、MGSM(多語言數學)、HumanEval(編程)和 BBH(知識評估)基準測試中與 GPT-4o 不相上下。
此外,405B 明顯優於最新的 GPT-4o mini 模型。
Llama 3.1 是一個使用優化的 Transformer 架構的自回歸語言模型。調整後的版本使用 SFT 和 RLHF 來與人類安全偏好保持一致。
對於 Llama 3.1 系列模型,token 計數僅指預訓練數據。
所有模型版本都使用分組查詢注意力(GQA)來提高推理可擴展性。
15T Token 訓練數據
與 Llama 3 一樣,Llama 3.1 在大約 15 萬億個來自公開來源的 token 上進行了預訓練。
微調數據包括公開可用的指令數據集,以及超過 2500 萬個合成樣本,預訓練數據截止到 2023 年 12 月。
可用於商業和研究用途
Llama 3.1 支持在多語言環境中進行商業和研究使用。
經指令微調的純文本模型適用於聊天助手,而預訓練模型可適應各種自然語言生成任務。Llama 3.1 模型集合還支持使用其模型輸出來改進其他模型,包括合成數據生成和模型蒸餾。
違反法律法規、使用政策和 Llama 3.1 社區許可的使用,或超出支持語言範圍的使用,均不在適用範圍內。
該團隊強調,Llama 3.1 在 8 種支持語言之外的更廣泛語言集上進行了訓練。開發者可以對其進行微調以用於其他語言,前提是遵守社區許可等政策並確保安全和負責任的使用。
3930 萬 GPU 小時的訓練
對於預訓練,Meta 使用了自定義訓練庫、Meta 的自定義 GPU 集群和生產基礎設施。微調、註釋和評估也在生產基礎設施上進行。
訓練累計使用了 3930 萬 GPU 小時的計算時間,硬件類型為 H100-80GB(700W TDP)。
訓練時間是訓練每個模型所需的總 GPU 時間,功耗是每個 GPU 設備的峰值功率容量,經過功率使用效率調整。