疑似Llama 3.1洩露:4050億參數超GPT-4開源模型現身

專有技術的優勢正在減弱。隨著開源技術的發展和普及,曾經被視為競爭壁壘的閉源系統正面臨挑戰。開放協作模式正在改變軟體產業的格局,使得依賴封閉技術的護城河策略變得越來越難以維繫。企業需要重新思考如何在開放環境中保持競爭力。

Llama 3.1 據報已洩露,包括8B、70B和405B參數模型的基準測試結果。即使是70B版本在幾個基準測試中也優於GPT-4o,這標誌著開源模型首次在多個基準測試中超越了GPT-4o和Claude Sonnet 3.5等閉源模型。

從洩露的模型卡中的關鍵細節:

  • 在15T+個公開可用的數據令牌上訓練,截至2023年12月
  • 微調數據包括公開指令數據集和1500萬個合成樣本
  • 支持英語、法語、德語、印地語、意大利語、葡萄牙語、西班牙語和泰語

據報這些模型具有128k的上下文長度,並使用分組查詢注意力以提高推理可擴展性。

預期用途包括多語言商業應用和研究。經指令調整的模型針對助手式聊天進行了優化,而預訓練模型可以適應各種自然語言生成任務。

訓練基礎設施:

  • 自定義訓練庫和Meta的GPU集群
  • 在H100-80GB硬件上使用39.3M GPU小時
  • 估計11,390噸CO2e排放(由於使用可再生能源,基於市場的排放為0噸)

報告了各種任務的基準分數,Llama 3.1模型在許多開源和閉源聊天模型中表現出色。

安全考慮:

  • 多管齊下的數據收集方法,結合人工生成和合成數據
  • 基於LLM的分類器用於質量控制
  • 專注於減少模型拒絕和拒絕語氣
  • 將對抗性提示納入安全數據
  • 旨在作為具有額外安全保障的更大AI系統的一部分進行部署

開發人員在構建代理系統時應實施系統級安全措施,特別是在利用新功能(如更長的上下文窗口、多語言能力和第三方工具集成)時。

[省略了引用的論文和來源的鏈接]