震撼發布:Llama 3.1開源大模型引領全民AI新時代

動用16000塊H100 GPU,基於150億個tokens進行訓練。

01.405B開源模型對標GPT-4o,25家合作夥伴已就緒

Meta評估了超過150個基準數據集的性能,Llama 3.1 405B在常識、可操作性、數學、工具使用和多語言翻譯等一系列任務中,可與GPT-4o、Claude 3.5 Sonnet和Gemini Ultra相媲美。

在現實場景中,Llama 3.1 405B進行了與人工評估的比較,其整體表現優於GPT-4o和Claude 3.5 Sonnet。

升級後的Llama 3.1 8B和70B模型,相比於同樣參數大小的模型性能表現也更好,這些較小參數的模型支持相同的128K Tokens上下文窗口、多語言、改進的推理和最先進的工具使用,以支持實現更高級應用。

Meta更新了許可證,允許開發人員首次使用包括405B參數規模的Llama模型的輸出來改進其他模型。

同時,Meta的開源生態進一步擴張,已經有超過25個企業推出了Llama 3.1新模型。

其中,亞馬遜雲科技、Databricks和英偉達正在推出全套服務,以支持開發人員微調和訓練自己的模型。AI晶片創企Groq等為Meta此次發布的所有新模型構建了低延遲、低成本的推理服務。

同時這些模型將在亞馬遜雲科技、微軟Azure、谷歌雲、Oracle等主要雲平台上提供服務。

Scale AI、戴爾、德勤等公司已準備好幫助企業採用Llama模型並使用自己的數據訓練定制模型。

Llama 3.1 405B不僅是最強開源模型,還有望成為最強模型,開源和閉源的距離再次大大縮短。

02.完整優化訓練堆疊,專注於讓模型可擴展

為了能基於15萬億個Tokens進行模型訓練,同時在合理時間內實現研究人員想要的效果,Meta對訓練堆疊進行了完整優化。

在解決上述難題方面,Meta選擇專注於保持模型開發過程可擴展並更直接的策略:

1、研究人員選擇了標準僅解碼器的Transformer模型架構進行小幅調整,而不是採用MoE混合專家模型,可以最大限度提高訓練穩定性。

2、研究人員採用了迭代的後訓練程序,每輪都使用監督微調和直接偏好優化。這使模型能夠為每一輪創建最高質量的合成數據,並提高每項能力的性能。

與此前Llama系列模型相比,Meta改進了用於訓練前和訓練後的數據的數量和質量。這些改進包括為訓練前數據開發更仔細的預處理和管理pipelines、開發更嚴格的質量保證,以及訓練後數據的過濾方法。

正如大語言模型的Scaling Laws(規模定律)所預期的那樣,Meta新旗艦模型優於使用相同策略訓練的較小模型。Meta還使用405B參數的模型提高了其較小模型的訓練質量。

同時,為了支持405B參數模型的大規模推理,研究人員將模型從BF16到FP8進行了量化,有效降低了所需的計算要求,並允許模型在單個服務器節點內運行。

在指令和聊天微調方面,研究人員通過在預訓練模型之上進行幾輪對齊以生成最終模型,每一輪都涉及監督微調(SFT)、拒絕採樣(RS)和直接偏好優化(DPO),其使用合成數據生成來生成絕大多數SFT示例以生成所有功能中更高質量的合成數據。

此外,Meta採取了多種數據處理技術以將這些合成數據過濾到最高質量,這使新模型能夠跨功能擴展微調數據量。

在數據方面,研究人員還對數據進行了仔細平衡以生成具有所有功能的高質量模型。例如,在短上下文基準上保證模型質量,使其能擴展到128K上下文長度。

此外,Meta還宣布推出一個整體的Llama系統。該系統除了涵蓋Llama模型,還涉及多個組件協調及外部工具調用,以此助開發者開發比基礎模型更強的定制產品。

Llama系統將涵蓋一系列新組件,包括開源新的安全工具如Llama Guard 3(多語言安全模型)和Prompt Guard(即時注入過濾器)。為了讓分散的組件聯接起來,Meta還發布了對Llama Stack API的評論請求,這是一個標準接口,以此第三方項目更輕鬆地利用Llama模型。

對於普通開發者來說,使用405B規模的模型仍是一項挑戰,這需要大量的計算資源和專業知識。

基於Llama系統,生成式AI開發不僅僅是提示模型,每個人都應該可以利用405B模型完成更多的任務,包括實時和批量推理、監督微調、針對特定應用評估模型、持續預訓練、檢索增強生成(RAG)、函數調用、合成數據生成等。

這是Meta迄今為止推出的最大模型,未來將推出更多設備友好的尺寸、更多模式以及在Agent層面的更新。

03.405B大模型爆改Meta AI,Quest智能語音助手升級

現在,Meta旗下的多個終端,比如WhatsApp和Meta AI聊天機器人中都開始使用Llama 3.1 405B。

Meta AI目前已支持七種新語言,本次Meta推出一批新的Meta AI創意工具,主要聚焦視覺生成、數學和編碼等領域。

首先看看視覺生成,Meta AI推出"想像我(Imagine Me)"圖像生成提示功能,支持用戶在Meta AI聊天中輸入"想像我"並添加提示,例如"想像我是皇室成員"或"想像我在一幅超現實主義繪畫中",就可以生成圖像並與朋友和家人分享。