特斯拉超級電腦挑戰GPT：馬斯克部署10萬晶片

使用10萬個NVIDIA H100液冷GPU通過單一RDMA網絡連接。

RDMA（遠程直接內存訪問）允許數據直接從一台計算機傳輸到另一台計算機，而無需涉及任一方的操作系統。單一RDMA創建高吞吐量、低延遲的網絡通信，特別適合用於大規模並行計算機集群。

就規模而言，xAI的孟菲斯超級計算機中心 ### 已經成為世界計算能力第一，遠超過OpenAI用於訓練GPT-4的25,000個A100 GPU，以及Aurora（60,000個Intel GPU）和Microsoft Eagle（14,400個Nvidia H100 GPU），甚至超過了之前世界最快的超級計算機Frontier（37,888個AMD GPU）。

H100是NVIDIA專門為處理大型語言模型數據而開發的芯片，每個芯片的成本約為30,000美元。這意味著 ### xAI新超級計算機中心的芯片價值就約為30億美元。

此前，馬斯克的xAI一直相對低調，xAI發布的名為Grok的AI經常被批評不夠友好。然而，鑑於目前的情況，大型模型訓練是一場計算能力的遊戲，最終是一場能源的遊戲。馬斯克似乎不願再等待，直接將資源拉滿。

他表示， ### 一個改進的大型模型（可能是Grok3）將在今年年底完成，屆時它將成為世界上最強大的AI。

事實上，NVIDIA已經推出了新一代H200芯片以及基於Blackwell新架構的B100和B200 GPU。然而，這些更先進的芯片要到今年年底才能使用，而且數萬個不可能立即生產出來。也許為了在ChatGPT5之前成為世界最強，馬斯克這次比平常行動得更快。

據福布斯報導，馬斯克直到今年3月才在孟菲斯敲定這項協議，之後超級計算機基地幾乎立即開始建設。為了加快速度，馬斯克從甲骨文借了24,000個H100。

然而，如前所述，目前的大型模型訓練最終歸結為一場能源遊戲。美國電網系統相當老舊，幾十年來沒有大規模增長。特別是AI訓練的用電結構與居民和商業用電很不同，經常突然出現超高用電峰值，極大地挑戰電網的最大負載。在這種情況下，能擠出電力和水資源來支持超級計算機中心的地方已經不多了。

根據孟菲斯電力、燃氣和水務公司CEO的估計， ### xAI的孟菲斯超級計算機集群在峰值時每小時將使用高達150兆瓦的電力，相當於10萬戶家庭的用電量。

目前，孟菲斯工廠已有32,000個GPU上線，預計今年第四季度將完成供電建設，工廠將全速運行。

難怪有人質疑馬斯克是否在說謊，因為這些電力需求和建設速度確實令人難以置信。

除了電力之外， ### xAI的超級計算機集群預計每天至少需要100萬加侖（約379萬升）的水用於冷卻。

據福布斯報導，孟菲斯市議員Pearl Walker上週表示："人們感到害怕。他們擔心潛在的水資源問題和能源供應問題。"她說，目前，數據中心預計每天將從孟菲斯的地下含水層（該市的主要水源）抽取492萬升水（該市每天總共消耗約5.68億升水）。雖然他們說這只是暫時的，但建設新的灰水處理廠的計劃尚未最終確定。孟菲斯的公用事業部門也已確認，在處理廠建成並投入運營之前，馬斯克的超級計算機將被允許使用地下含水層的水。

除了馬斯克，OpenAI和微軟也在部署更大規模的超級計算機。這台名為"Stargate"的超級計算機將擁有數百萬個芯片，估計成本為1,150億美元，計劃於2028年推出。

今年4月，OpenAI導致微軟的電網崩潰。據微軟工程師稱，他們當時正在為GPT-6部署一個由10萬個H100組成的訓練集群。馬斯克會成為第一個讓10萬個H100一起工作的人嗎？

特斯拉超級電腦挑戰GPT：馬斯克部署10萬晶片

速度驚人！

使用10萬個NVIDIA H100液冷GPU通過單一RDMA網絡連接。