Llama 3.1的表現可與OpenAI的GPT-4o相媲美!
一些AI博主讚揚Llama 3.1的發布將是改變AI世界命運的又一天。
洩露的基準測試結果顯示,Llama 3.1有8B、70B和405B三種規模。即使是參數數量最少的70B模型在許多方面也與GPT-4o不相上下。
一些網友指出,根據這個基準,Llama 3.1 405B ≈ GPT-4o,而Llama 3.1 70B將成為首個擊敗OpenAI的輕量級模型,堪稱GPT-4o mini。
然而,許多下載模型試用的人發現,洩露的Llama 3.1 405B總文件大小約為820GB,需要近3倍於Llama 2(約280GB)的內存才能保持全精度。
這意味著除非你家裡有礦機並且負擔得起足夠的GPU,否則個人開發者很難在自己的電腦上運行Llama 3.1。一些網友推測Llama 3.1並非針對個人,而是針對機構和企業。
尚未正式宣布的Llama 3.1也遭到了一些潑冷水。許多網友抱怨Llama 3.1的GPU要求太高,相比之下OpenAI的GPT-4o mini更具性價比。
根據洩露的模型信息,Llama 3.1在功能上比2024年4月19日發布的Llama 3有更多迭代,包括更長的上下文窗口、多語言輸入輸出,以及可能與開發者和第三方工具的集成。
訓練數據:Llama 3.1在來自公共來源的15T+個標記上進行了訓練,微調數據包括公開可用的指令調優數據集(與Llama-3不同!)和超過2500萬個合成生成的示例。
多語言對話:Llama 3.1支持8種語言:英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語。雖然遺憾的是中文未包括在內,但開發者可以對Llama 3.1模型進行微調,以支持8種以外的語言。
上下文窗口:每個版本的上下文長度已從8k擴展到128k,大致相當於模型能夠一次記住、理解和處理約96,000個單詞,幾乎是一整本原版哈利波特小說。
許多網友急於將Llama 3.1與其"前輩"進行對比,發現不僅指標顯著提高,計算資源也得到了節省。
根據網友測試,Llama 3.1在能力上相比Llama 3有顯著提升。特別是human_eval和truthfulqa_mc1能力有明顯改善,意味著更強的代碼生成能力和更真實的問答。
同時,Llama 3的指令模型在提示學習、上下文學習和高效參數微調等指標上比基礎模型有明顯改進。
這是合理的,因為基礎模型通常不針對特定任務進行微調,而指令模型是專門訓練來遵循指令或完成特定任務的。通常,指令模型在指標上表現更好。
這讓人們對Llama 3.1的正式發布更加期待。目前洩露的Llama 3.1模型測試僅針對基礎模型,而指令模型可能表現更佳!
令人驚訝的是,在基準測試結果中,Llama 3.1 70B模型與GPT-4o不相上下甚至更勝一籌,而Llama 3.1 8B模型的表現接近Llama 3 70B模型。一些網友推測這可能使用了模型蒸餾技術,其中8B和70B模型是從最大的405B模型衍生出的簡化版本,使大模型"變小"。
模型蒸餾可以看作是學生向老師學習。大型且強大的模型(教師模型)是老師,而較小且簡單的模型(學生模型)是學生。學生模型通過"模仿"教師模型來學習,試圖使其輸出盡可能接近教師模型的輸出,從而學習類似的知識和能力。
經過蒸餾訓練後,學生模型可以在保持高性能和可比精度的同時,減少模型大小和計算資源需求。
目前還不知道Llama 3.1是否會如期望的那樣開源。但即使開源,你仍需要深厚的口袋才能負擔得起使用Llama 3.1。
運行Llama 3.1的基本入場券是足夠的GPU。
洩露的文件顯示,在H100-80GB類型硬件上訓練Llama 3.1 405B的時間為30.84M GPU小時。這意味著假設每小時只使用一個H100-80GB,運行Llama 3.1 405B需要30.84M小時 - 模型運行需要3500年!
對於私人部署,如果一家公司想在一個月內成功運行Llama 3.1 405B,他們需要至少囤積43,000個H100-80GB。每個H100售價40,000美元,### 使用Llama 3.1 405B計算能力的入場券高達170億美元,相當於1250億人民幣。
好消息是Llama 3.1的推理成本可能更便宜。
根據Artificial Analysis的預測,使用Llama 3.1 405B處理100萬個標記的成本將比類似質量的前沿模型(GPT-4o和Claude 3.5 Sonnet)更便宜,提供更好的性價比。
此外,一些網友從源代碼推測Llama 3.1 405B可能成為需要付費使用的會員產品。然而,真實情況仍有待官方發布。