Meta 發布了 Llama 3.1 模型,包含 8B、70B 和 405B 三個尺寸版本。主要特點如下:
- 最大上下文長度提升到 128K
- 支援多語言
- 程式碼生成性能優秀
- 具有複雜的推理能力
從基準測試結果來看:
- Llama 3.1 405B 超過了 GPT-4 0125,與 GPT-4o、Claude 3.5 互有勝負
- Llama 3.1 8B 性能超過 Gemma 2 9B 1T 和 Mistral 7B Instruct
- Llama 3.1 70B 性能超過 GPT-3.5 Turbo
Llama 3.1 405B 的訓練細節:
- 使用超過 15 兆個 token 進行訓練
- 在超過 16000 個 H100 GPU 上訓練
- 採用迭代後訓練程序,結合監督微調和直接偏好優化
- 改進了預訓練和後訓練資料的數量和品質
- 從 16 位精度量化到 8 位精度,減少計算資源需求
其他亮點:
- 提供開放/免費的模型權重和程式碼
- 許可證允許使用者進行微調、模型蒸餾和任意部署
- 提供 Llama Stack API,便於整合使用
- 支援協調多個組件,包括呼叫外部工具
Meta 不再禁止用 Llama 3 來改進其他模型,體現了更開放的態度。這次發布標誌著開源大模型在性能上首次追平閉源大模型,開啟了由開源引領的新時代。