Llama 3.1: 開源模型超越閉源巔峰,AI格局將重塑?

Meta創辦人祖克柏堅定承諾全面推進開源策略。

Meta正式發布了Llama 3.1,包含8B、70B和405B三個規模的模型,最大上下文長度提升到128k。主要特點包括:

  1. 405B版本是目前最大的開源模型之一,性能超越了現有頂級AI模型。

  2. 引入更長的上下文窗口(最長128K tokens),能處理更複雜的任務和對話。

  3. 支持多語言輸入輸出,增強了通用性和適用範圍。

  4. 提高了推理能力,特別是在解決複雜數學問題和即時生成內容方面表現突出。

Meta表示,開源大語言模型性能落後於閉源模型的時代即將結束,Llama 3.1開啟了開源引領的新時代。405B版本在性能上已可與GPT-4和Claude 3相媲美。

在模型架構方面,Llama 3.1在超過15萬億個token的數據上進行訓練,使用了超過16000塊H100 GPU。為保證穩定性和便捷性,採用了標準的僅解碼器Transformer架構而非MoE架構。

研究團隊實施了迭代的後訓練方法,通過監督式微調和直接偏好優化來提升模型功能。同時探索使用405B模型作為小型模型的「教師模型」。

Meta還發布了包含多個示例應用和新組件的完整參考系統,如Llama Guard 3和Prompt Guard等。並提出了「Llama Stack」標準化接口,以簡化工具鏈組件和應用程序的構建。

根據基準測試,405B版本在多項測試中與GPT-4等閉源模型相當或略勝一籌。8B和70B版本也顯著優於同等規模的其他開源模型。

Link to Meta's official blog post

Link to Mark Zuckerberg's article on open source AI