Llama 3.1泄露:性能超GPT-4,成本仅十分之一?

一些AI博主赞扬Llama 3.1的发布将是改变AI世界命运的又一天。

泄露的基准测试结果显示，Llama 3.1有8B、70B和405B三种规模。即使是参数量最小的70B模型在许多方面也能与GPT-4o相媲美。

一些网友指出，根据这个基准测试，Llama 3.1 405B ≈ GPT-4o，而Llama 3.1 70B将成为第一个击败OpenAI的轻量级模型，堪称GPT-4o mini。

然而，许多下载模型试用的人发现，泄露的Llama 3.1 405B总文件大小约为820GB，需要近3倍于Llama 2（约280GB）的内存才能保持全精度。

这意味着除非你家里有矿机并且能负担得起足够的GPU，否则个人开发者很难在自己的电脑上运行Llama 3.1。一些网友推测，Llama 3.1的目标不是个人，而是机构和企业。

尚未正式公布的Llama 3.1也遭到了一些泼冷水。许多网友抱怨Llama 3.1的GPU要求太高，相比之下OpenAI的GPT-4o mini更具性价比。

根据泄露的模型信息，Llama 3.1在功能上相比2024年4月19日发布的Llama 3有更多迭代，包括更长的上下文窗口、多语言输入输出，以及可能与开发者和第三方工具集成。

训练数据：Llama 3.1在来自公共来源的15T+个token上进行训练，微调数据包括公开可用的指令调优数据集（与Llama-3不同！）和超过2500万个合成生成的示例。

多语言对话：Llama 3.1支持8种语言：英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。虽然遗憾的是中文不在其中，但开发者可以对Llama 3.1模型进行微调，以支持这8种语言之外的语言。

上下文窗口：每个版本的上下文长度从8k扩展到128k，大致相当于模型能够一次记忆、理解和处理约96,000个单词，几乎是一整本原版《哈利·波特》。

许多网友迫不及待地将Llama 3.1与其"前辈"进行对比，发现不仅指标显著提高，而且计算资源也得到了节省。

根据网友测试，Llama 3.1相比Llama 3在能力上有显著提升。特别是human_eval和truthfulqa_mc1能力有明显改善，意味着更强的代码生成能力和更真实的问答能力。

同时，Llama 3的instruct模型在提示学习、上下文学习和高效参数微调等指标上比基础模型有明显提升。

这是合理的，因为基础模型通常没有针对特定任务进行微调，而instruct模型经过专门训练以遵循指令或完成特定任务。通常，instruct模型在指标上表现更好。

这让人们对Llama 3.1的正式发布更加期待。目前泄露的Llama 3.1模型测试仅针对基础模型，而instruct模型可能表现更佳！

令人惊讶的是，在基准测试结果中，Llama 3.1 70B模型与GPT-4o不相上下甚至更胜一筹，而Llama 3.1 8B模型的表现接近Llama 3 70B模型。一些网友推测这可能使用了模型蒸馏技术，即8B和70B模型是从最大的405B模型简化而来的版本，使大模型"变小"。

模型蒸馏可以看作是学生向老师学习。大而强大的模型（教师模型）是老师，而小而简单的模型（学生模型）是学生。学生模型通过"模仿"教师模型来学习，试图使其输出尽可能接近教师模型的输出，从而学习到类似的知识和能力。

经过蒸馏训练，学生模型可以在保持高性能和可比精度的同时，减小模型大小和计算资源需求。

目前还不知道Llama 3.1是否会如期望的那样开源。但即使开源，你仍然需要深厚的口袋才能负担得起使用Llama 3.1。

运行Llama 3.1的基本入场券是足够的GPU。

泄露的文件显示，在H100-80GB类型硬件上训练Llama 3.1 405B的时间为30.84M GPU小时。这意味着假设每小时只使用一个H100-80GB，运行Llama 3.1 405B需要30.84M小时——模型运行需要3500年！

对于私有部署，如果一家公司想在一个月内成功运行Llama 3.1 405B，他们需要至少储备43,000个H100-80GB。每个H100售价4万美元，### 使用Llama 3.1 405B计算力的入场券高达170亿美元，相当于1250亿人民币。

好消息是Llama 3.1的推理成本可能会更便宜。

根据Artificial Analysis的预测，使用Llama 3.1 405B处理100万个token的成本将比类似质量的前沿模型（GPT-4o和Claude 3.5 Sonnet）更便宜，提供更好的性价比。

此外，一些网友从源代码中推测，Llama 3.1 405B可能会成为需要付费使用的会员产品。不过，真实情况还有待官方发布时揭晓。