液冷式NVIDIA H100 GPU 100,000個を単一のRDMAネットワークで接続して使用。
RDMA(Remote Direct Memory Access)は、両側のオペレーティングシステムを介さずに、あるコンピューターから別のコンピューターに直接データを転送することを可能にします。単一のRDMAは、高スループット、低遅延のネットワーク通信を実現し、特に大規模な並列コンピュータークラスターでの使用に適しています。
規模の面では、xAIのメンフィススーパーコンピューターセンター###はすでに計算能力で世界一となり、OpenAIがGPT-4の訓練に使用した25,000個のA100 GPU、Aurora(60,000個のIntel GPU)やMicrosoft Eagle(14,400個のNvidia H100 GPU)を大きく上回り、さらに以前の世界最速スーパーコンピューターFrontier(37,888個のAMD GPU)をも超えています。
H100は、NVIDIAが大規模言語モデルデータの処理のために特別に開発したチップで、1個あたりの価格は約30,000ドルです。つまり、###xAIの新しいスーパーコンピューターセンターのチップの価値だけで約30億ドルになります。
これまで、マスクのxAIは比較的静かで、xAIがリリースしたGrokというAIはユーザーフレンドリーではないとしばしば批判されていました。しかし、現状では、大規模モデルの訓練は計算能力のゲームであり、最終的にはエネルギーのゲームです。マスクはもはや待つ気がないようで、直接リソースを最大限に活用しています。
彼は、###今年末までに改良された大規模モデル(おそらくGrok3)が完成し、その時点で世界最強のAIになるだろうと述べています。
実際、NVIDIAはすでに新世代のH200チップと、Blackwell新アーキテクチャに基づくB100およびB200 GPUを発表しています。しかし、これらのより高度なチップは今年末まで利用できず、数万個を一度に生産することはできません。おそらくChatGPT5より先に世界最強になるために、マスクは今回いつもより速く動いているのでしょう。
フォーブズによると、マスクは今年3月にメンフィスでこの契約を最終決定し、その後すぐにスーパーコンピューター基地の建設が始まりました。スピードアップのために、マスクはOracleから24,000個のH100を借りました。
しかし、前述のように、現在の大規模モデル訓練は最終的にはエネルギーゲームになります。米国の電力網システムはかなり古く、数十年間大規模な成長を見ていません。特にAI訓練の電力消費構造は住宅や商業用電力とは大きく異なり、しばしば突然の超高電力消費ピークが現れ、電力網の最大負荷に大きな挑戦をもたらします。この状況下で、スーパーコンピューターセンターをサポートするための電力と水資源を絞り出せる場所はほとんど残っていません。
Memphis Light, Gas and Waterの最高経営責任者の推定によると、###xAIのメンフィススーパーコンピュータークラスターは、ピーク時に1時間あたり最大150メガワットの電力を使用し、これは10万世帯の電力消費量に相当します。
現在、メンフィス工場では32,000個のGPUがオンラインになっており、今年第4四半期に電力供給の建設が完了し、工場がフル稼働する予定です。
マスクが嘘をついているのではないかと疑問視する人がいるのも無理はありません。これらの電力要件と建設速度は本当に信じられないほどだからです。
電力に加えて、###xAIのスーパーコンピュータークラスターは冷却のために1日少なくとも100万ガロン(約379万リットル)の水を必要とすると予想されています。
フォーブズによると、メンフィス市議会議員のパール・ウォーカーは先週、「人々は怖がっています。潜在的な水問題やエネルギー供給の問題を心配しています」と述べました。彼女によると、現在、データセンターはメンフィスの主要な水源である地下帯水層から1日492万リットルの水を引き出すと予想されています(市全体で1日約5億6800万リットルの水を消費しています)。これは一時的なものだと言われていますが、新しい中水処理プラントの建設計画はまだ確定していません。メンフィスの公益事業部門も、処理プラントが建設され稼働する前に、マスクのスーパーコンピューターが地下帯水層の水を使用することを許可すると確認しています。
マスク以外にも、OpenAIとMicrosoftもより大規模なスーパーコンピューターを展開しています。「Stargate」と名付けられたこのスーパーコンピューターは数百万個のチップを持ち、推定コストは1,150億ドルで、2028年に稼働開始予定です。
今年4月、OpenAIはMicrosoftの電力網をクラッシュさせました。Microsoftのエンジニアによると、当時GPT-6のために100,000個のH100からなる訓練クラスターを展開していたそうです。マスクは100,000個のH100を一緒に動作させる最初の人物になるでしょうか?