Llama 3.1: 開源模型超越閉源巔峰，AI格局將重塑？

Meta正式發布了Llama 3.1，包含8B、70B和405B三個規模的模型，最大上下文長度提升到128k。主要特點包括：

Meta表示，開源大語言模型性能落後於閉源模型的時代即將結束，Llama 3.1開啟了開源引領的新時代。405B版本在性能上已可與GPT-4和Claude 3相媲美。

在模型架構方面，Llama 3.1在超過15萬億個token的數據上進行訓練，使用了超過16000塊H100 GPU。為保證穩定性和便捷性，採用了標準的僅解碼器Transformer架構而非MoE架構。

研究團隊實施了迭代的後訓練方法，通過監督式微調和直接偏好優化來提升模型功能。同時探索使用405B模型作為小型模型的「教師模型」。

Meta還發布了包含多個示例應用和新組件的完整參考系統，如Llama Guard 3和Prompt Guard等。並提出了「Llama Stack」標準化接口，以簡化工具鏈組件和應用程序的構建。

根據基準測試，405B版本在多項測試中與GPT-4等閉源模型相當或略勝一籌。8B和70B版本也顯著優於同等規模的其他開源模型。

Meta創辦人祖克柏堅定承諾全面推進開源策略。