Llama 3.1 據報已洩露,包括8B、70B和405B參數模型的基準測試結果。即使是70B版本在幾個基準測試中也優於GPT-4o,這標誌著開源模型首次在多個基準測試中超越了GPT-4o和Claude Sonnet 3.5等閉源模型。
從洩露的模型卡中的關鍵細節:
- 在15T+個公開可用的數據令牌上訓練,截至2023年12月
- 微調數據包括公開指令數據集和1500萬個合成樣本
- 支持英語、法語、德語、印地語、意大利語、葡萄牙語、西班牙語和泰語
據報這些模型具有128k的上下文長度,並使用分組查詢注意力以提高推理可擴展性。
預期用途包括多語言商業應用和研究。經指令調整的模型針對助手式聊天進行了優化,而預訓練模型可以適應各種自然語言生成任務。
訓練基礎設施:
- 自定義訓練庫和Meta的GPU集群
- 在H100-80GB硬件上使用39.3M GPU小時
- 估計11,390噸CO2e排放(由於使用可再生能源,基於市場的排放為0噸)
報告了各種任務的基準分數,Llama 3.1模型在許多開源和閉源聊天模型中表現出色。
安全考慮:
- 多管齊下的數據收集方法,結合人工生成和合成數據
- 基於LLM的分類器用於質量控制
- 專注於減少模型拒絕和拒絕語氣
- 將對抗性提示納入安全數據
- 旨在作為具有額外安全保障的更大AI系統的一部分進行部署
開發人員在構建代理系統時應實施系統級安全措施,特別是在利用新功能(如更長的上下文窗口、多語言能力和第三方工具集成)時。
[省略了引用的論文和來源的鏈接]