特斯拉超级计算机挑战GPT：马斯克部署10万芯片

使用10万台NVIDIA H100液冷GPU通过单一RDMA网络连接。

RDMA（远程直接内存访问）允许数据直接从一台计算机传输到另一台计算机，而无需涉及任何一方的操作系统。单一RDMA创建高吞吐量、低延迟的网络通信，特别适合用于大规模并行计算机集群。

就规模而言，xAI的孟菲斯超级计算机中心 ### 已经成为世界计算能力第一，远超OpenAI用于训练GPT-4的25,000个A100 GPU，以及Aurora（60,000个英特尔GPU）和微软Eagle（14,400个英伟达H100 GPU），甚至超过了之前世界最快的超级计算机Frontier（37,888个AMD GPU）。

H100是NVIDIA专门为处理大型语言模型数据而开发的芯片，每个芯片价格约为3万美元。这意味着 ### xAI新超级计算机中心仅芯片价值就约30亿美元。

此前，马斯克的xAI一直相对低调，xAI发布的名为Grok的AI经常被批评不够友好。然而，鉴于当前情况，大模型训练是一场算力的游戏，最终是一场能源的游戏。马斯克似乎不愿再等待，直接将资源拉满。

他表示，### 一个改进的大模型（可能是Grok3）将在今年年底完成，届时它将成为世界上最强大的AI。

事实上，NVIDIA已经推出了新一代H200芯片以及基于Blackwell新架构的B100和B200 GPU。然而，这些更先进的芯片要到今年年底才能上市，而且数万个也不可能立即生产出来。也许为了在ChatGPT5之前成为世界最强，马斯克这次行动比平时更快。

据福布斯报道，马斯克今年3月才在孟菲斯敲定这项协议，之后超级计算机基地几乎立即开始建设。为了加快速度，马斯克从甲骨文借了24,000个H100。

然而，如前所述，当前的大模型训练最终归结为一场能源游戏。美国电网系统相当陈旧，几十年来没有大规模增长。特别是AI训练的用电结构与居民和商业用电大不相同，经常突然出现超高用电峰值，极大地挑战电网的最大负荷。在这种情况下，能够挤出电力和水资源来支持超级计算机中心的地方已经不多了。

据孟菲斯电力、燃气和水务公司CEO估计，### xAI的孟菲斯超级计算机集群在峰值时每小时将使用高达150兆瓦的电力，相当于10万户家庭的用电量。

目前，孟菲斯工厂已有32,000个GPU上线，预计今年第四季度将完成供电建设，工厂将全速运行。

难怪有人质疑马斯克是否在说谎，因为这些电力需求和建设速度确实令人难以置信。

除了电力之外，### xAI的超级计算机集群预计每天至少需要100万加仑（约379万升）的水用于冷却。

据福布斯报道，孟菲斯市议员Pearl Walker上周表示："人们感到害怕。他们担心潜在的水资源问题和能源供应问题。"她说，目前预计数据中心每天将从孟菲斯的地下含水层（该市的主要水源）抽取492万升水（该市每天总共消耗约5.68亿升水）。虽然他们说这只是暂时的，但建设新的中水处理厂的计划还没有最终确定。孟菲斯的公用事业部门也已确认，在处理厂建成并投入运营之前，马斯克的超级计算机将被允许使用地下含水层的水。

除了马斯克，OpenAI和微软也在部署更大规模的超级计算机。这台名为"Stargate"的超级计算机将拥有数百万个芯片，估计成本为1150亿美元，计划于2028年推出。

今年4月，OpenAI导致微软的电网崩溃。据微软工程师称，当时他们正在为GPT-6部署一个由10万个H100组成的训练集群。马斯克会成为第一个让10万个H100协同工作的人吗？

特斯拉超级计算机挑战GPT：马斯克部署10万芯片

速度惊人！

使用10万台NVIDIA H100液冷GPU通过单一RDMA网络连接。