使用10萬個NVIDIA H100液冷GPU通過單一RDMA網絡連接。
RDMA(遠程直接內存訪問)允許數據直接從一台計算機傳輸到另一台計算機,而無需涉及任一方的操作系統。單一RDMA創建高吞吐量、低延遲的網絡通信,特別適合用於大規模並行計算機集群。
就規模而言,xAI的孟菲斯超級計算機中心 ### 已經成為世界計算能力第一,遠超過OpenAI用於訓練GPT-4的25,000個A100 GPU,以及Aurora(60,000個Intel GPU)和Microsoft Eagle(14,400個Nvidia H100 GPU),甚至超過了之前世界最快的超級計算機Frontier(37,888個AMD GPU)。
H100是NVIDIA專門為處理大型語言模型數據而開發的芯片,每個芯片的成本約為30,000美元。這意味著 ### xAI新超級計算機中心的芯片價值就約為30億美元。
此前,馬斯克的xAI一直相對低調,xAI發布的名為Grok的AI經常被批評不夠友好。然而,鑑於目前的情況,大型模型訓練是一場計算能力的遊戲,最終是一場能源的遊戲。馬斯克似乎不願再等待,直接將資源拉滿。
他表示, ### 一個改進的大型模型(可能是Grok3)將在今年年底完成,屆時它將成為世界上最強大的AI。
事實上,NVIDIA已經推出了新一代H200芯片以及基於Blackwell新架構的B100和B200 GPU。然而,這些更先進的芯片要到今年年底才能使用,而且數萬個不可能立即生產出來。也許為了在ChatGPT5之前成為世界最強,馬斯克這次比平常行動得更快。
據福布斯報導,馬斯克直到今年3月才在孟菲斯敲定這項協議,之後超級計算機基地幾乎立即開始建設。為了加快速度,馬斯克從甲骨文借了24,000個H100。
然而,如前所述,目前的大型模型訓練最終歸結為一場能源遊戲。美國電網系統相當老舊,幾十年來沒有大規模增長。特別是AI訓練的用電結構與居民和商業用電很不同,經常突然出現超高用電峰值,極大地挑戰電網的最大負載。在這種情況下,能擠出電力和水資源來支持超級計算機中心的地方已經不多了。
根據孟菲斯電力、燃氣和水務公司CEO的估計, ### xAI的孟菲斯超級計算機集群在峰值時每小時將使用高達150兆瓦的電力,相當於10萬戶家庭的用電量。
目前,孟菲斯工廠已有32,000個GPU上線,預計今年第四季度將完成供電建設,工廠將全速運行。
難怪有人質疑馬斯克是否在說謊,因為這些電力需求和建設速度確實令人難以置信。
除了電力之外, ### xAI的超級計算機集群預計每天至少需要100萬加侖(約379萬升)的水用於冷卻。
據福布斯報導,孟菲斯市議員Pearl Walker上週表示:"人們感到害怕。他們擔心潛在的水資源問題和能源供應問題。"她說,目前,數據中心預計每天將從孟菲斯的地下含水層(該市的主要水源)抽取492萬升水(該市每天總共消耗約5.68億升水)。雖然他們說這只是暫時的,但建設新的灰水處理廠的計劃尚未最終確定。孟菲斯的公用事業部門也已確認,在處理廠建成並投入運營之前,馬斯克的超級計算機將被允許使用地下含水層的水。
除了馬斯克,OpenAI和微軟也在部署更大規模的超級計算機。這台名為"Stargate"的超級計算機將擁有數百萬個芯片,估計成本為1,150億美元,計劃於2028年推出。
今年4月,OpenAI導致微軟的電網崩潰。據微軟工程師稱,他們當時正在為GPT-6部署一個由10萬個H100組成的訓練集群。馬斯克會成為第一個讓10萬個H100一起工作的人嗎?