特斯拉超级计算机挑战GPT:马斯克部署10万芯片

速度惊人!

使用10万台NVIDIA H100液冷GPU通过单一RDMA网络连接。

RDMA(远程直接内存访问)允许数据直接从一台计算机传输到另一台计算机,而无需涉及任何一方的操作系统。单一RDMA创建高吞吐量、低延迟的网络通信,特别适合用于大规模并行计算机集群。

就规模而言,xAI的孟菲斯超级计算机中心 ### 已经成为世界计算能力第一,远超OpenAI用于训练GPT-4的25,000个A100 GPU,以及Aurora(60,000个英特尔GPU)和微软Eagle(14,400个英伟达H100 GPU),甚至超过了之前世界最快的超级计算机Frontier(37,888个AMD GPU)。

H100是NVIDIA专门为处理大型语言模型数据而开发的芯片,每个芯片价格约为3万美元。这意味着 ### xAI新超级计算机中心仅芯片价值就约30亿美元。

此前,马斯克的xAI一直相对低调,xAI发布的名为Grok的AI经常被批评不够友好。然而,鉴于当前情况,大模型训练是一场算力的游戏,最终是一场能源的游戏。马斯克似乎不愿再等待,直接将资源拉满。

他表示,### 一个改进的大模型(可能是Grok3)将在今年年底完成,届时它将成为世界上最强大的AI。

事实上,NVIDIA已经推出了新一代H200芯片以及基于Blackwell新架构的B100和B200 GPU。然而,这些更先进的芯片要到今年年底才能上市,而且数万个也不可能立即生产出来。也许为了在ChatGPT5之前成为世界最强,马斯克这次行动比平时更快。

据福布斯报道,马斯克今年3月才在孟菲斯敲定这项协议,之后超级计算机基地几乎立即开始建设。为了加快速度,马斯克从甲骨文借了24,000个H100。

然而,如前所述,当前的大模型训练最终归结为一场能源游戏。美国电网系统相当陈旧,几十年来没有大规模增长。特别是AI训练的用电结构与居民和商业用电大不相同,经常突然出现超高用电峰值,极大地挑战电网的最大负荷。在这种情况下,能够挤出电力和水资源来支持超级计算机中心的地方已经不多了。

据孟菲斯电力、燃气和水务公司CEO估计,### xAI的孟菲斯超级计算机集群在峰值时每小时将使用高达150兆瓦的电力,相当于10万户家庭的用电量。

目前,孟菲斯工厂已有32,000个GPU上线,预计今年第四季度将完成供电建设,工厂将全速运行。

难怪有人质疑马斯克是否在说谎,因为这些电力需求和建设速度确实令人难以置信。

除了电力之外,### xAI的超级计算机集群预计每天至少需要100万加仑(约379万升)的水用于冷却。

据福布斯报道,孟菲斯市议员Pearl Walker上周表示:"人们感到害怕。他们担心潜在的水资源问题和能源供应问题。"她说,目前预计数据中心每天将从孟菲斯的地下含水层(该市的主要水源)抽取492万升水(该市每天总共消耗约5.68亿升水)。虽然他们说这只是暂时的,但建设新的中水处理厂的计划还没有最终确定。孟菲斯的公用事业部门也已确认,在处理厂建成并投入运营之前,马斯克的超级计算机将被允许使用地下含水层的水。

除了马斯克,OpenAI和微软也在部署更大规模的超级计算机。这台名为"Stargate"的超级计算机将拥有数百万个芯片,估计成本为1150亿美元,计划于2028年推出。

今年4月,OpenAI导致微软的电网崩溃。据微软工程师称,当时他们正在为GPT-6部署一个由10万个H100组成的训练集群。马斯克会成为第一个让10万个H100协同工作的人吗?