Llama 3.1的性能堪比OpenAI的GPT-4o!
一些AI博主赞扬Llama 3.1的发布将是改变AI世界命运的又一天。
泄露的基准测试结果显示,Llama 3.1有8B、70B和405B三种规模。即使是参数量最小的70B模型在许多方面也能与GPT-4o相媲美。
一些网友指出,根据这个基准测试,Llama 3.1 405B ≈ GPT-4o,而Llama 3.1 70B将成为第一个击败OpenAI的轻量级模型,堪称GPT-4o mini。
然而,许多下载模型试用的人发现,泄露的Llama 3.1 405B总文件大小约为820GB,需要近3倍于Llama 2(约280GB)的内存才能保持全精度。
这意味着除非你家里有矿机并且能负担得起足够的GPU,否则个人开发者很难在自己的电脑上运行Llama 3.1。一些网友推测,Llama 3.1的目标不是个人,而是机构和企业。
尚未正式公布的Llama 3.1也遭到了一些泼冷水。许多网友抱怨Llama 3.1的GPU要求太高,相比之下OpenAI的GPT-4o mini更具性价比。
根据泄露的模型信息,Llama 3.1在功能上相比2024年4月19日发布的Llama 3有更多迭代,包括更长的上下文窗口、多语言输入输出,以及可能与开发者和第三方工具集成。
训练数据:Llama 3.1在来自公共来源的15T+个token上进行训练,微调数据包括公开可用的指令调优数据集(与Llama-3不同!)和超过2500万个合成生成的示例。
多语言对话:Llama 3.1支持8种语言:英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。虽然遗憾的是中文不在其中,但开发者可以对Llama 3.1模型进行微调,以支持这8种语言之外的语言。
上下文窗口:每个版本的上下文长度从8k扩展到128k,大致相当于模型能够一次记忆、理解和处理约96,000个单词,几乎是一整本原版《哈利·波特》。
许多网友迫不及待地将Llama 3.1与其"前辈"进行对比,发现不仅指标显著提高,而且计算资源也得到了节省。
根据网友测试,Llama 3.1相比Llama 3在能力上有显著提升。特别是human_eval和truthfulqa_mc1能力有明显改善,意味着更强的代码生成能力和更真实的问答能力。
同时,Llama 3的instruct模型在提示学习、上下文学习和高效参数微调等指标上比基础模型有明显提升。
这是合理的,因为基础模型通常没有针对特定任务进行微调,而instruct模型经过专门训练以遵循指令或完成特定任务。通常,instruct模型在指标上表现更好。
这让人们对Llama 3.1的正式发布更加期待。目前泄露的Llama 3.1模型测试仅针对基础模型,而instruct模型可能表现更佳!
令人惊讶的是,在基准测试结果中,Llama 3.1 70B模型与GPT-4o不相上下甚至更胜一筹,而Llama 3.1 8B模型的表现接近Llama 3 70B模型。一些网友推测这可能使用了模型蒸馏技术,即8B和70B模型是从最大的405B模型简化而来的版本,使大模型"变小"。
模型蒸馏可以看作是学生向老师学习。大而强大的模型(教师模型)是老师,而小而简单的模型(学生模型)是学生。学生模型通过"模仿"教师模型来学习,试图使其输出尽可能接近教师模型的输出,从而学习到类似的知识和能力。
经过蒸馏训练,学生模型可以在保持高性能和可比精度的同时,减小模型大小和计算资源需求。
目前还不知道Llama 3.1是否会如期望的那样开源。但即使开源,你仍然需要深厚的口袋才能负担得起使用Llama 3.1。
运行Llama 3.1的基本入场券是足够的GPU。
泄露的文件显示,在H100-80GB类型硬件上训练Llama 3.1 405B的时间为30.84M GPU小时。这意味着假设每小时只使用一个H100-80GB,运行Llama 3.1 405B需要30.84M小时——模型运行需要3500年!
对于私有部署,如果一家公司想在一个月内成功运行Llama 3.1 405B,他们需要至少储备43,000个H100-80GB。每个H100售价4万美元,### 使用Llama 3.1 405B计算力的入场券高达170亿美元,相当于1250亿人民币。
好消息是Llama 3.1的推理成本可能会更便宜。
根据Artificial Analysis的预测,使用Llama 3.1 405B处理100万个token的成本将比类似质量的前沿模型(GPT-4o和Claude 3.5 Sonnet)更便宜,提供更好的性价比。
此外,一些网友从源代码中推测,Llama 3.1 405B可能会成为需要付费使用的会员产品。不过,真实情况还有待官方发布时揭晓。