utilisant 100 000 GPU NVIDIA H100 refroidis par liquide connectés via un seul réseau RDMA.
Le RDMA (Remote Direct Memory Access) permet de transférer des données directement d'un ordinateur à un autre sans impliquer les systèmes d'exploitation des deux côtés. Un seul RDMA crée une communication réseau à haut débit et à faible latence, particulièrement adaptée à une utilisation dans des clusters informatiques parallèles à grande échelle.
En termes d'échelle, le centre de supercalculateur Memphis de xAI ### est déjà devenu le numéro un mondial en puissance de calcul, dépassant de loin les 25 000 GPU A100 utilisés par OpenAI pour entraîner GPT-4, ainsi qu'Aurora (60 000 GPU Intel) et Microsoft Eagle (14 400 GPU Nvidia H100), et même dépassant le précédent supercalculateur le plus rapide du monde, Frontier (37 888 GPU AMD).
Le H100 est une puce développée par NVIDIA spécifiquement pour traiter les données des grands modèles de langage, chaque puce coûtant environ 30 000 dollars. Cela signifie que ### la valeur des puces seules pour le nouveau centre de supercalculateur de xAI est d'environ 3 milliards de dollars.
Auparavant, xAI de Musk était relativement discret, et l'IA appelée Grok publiée par xAI était souvent critiquée comme peu conviviale. Cependant, étant donné la situation actuelle, l'entraînement des grands modèles est un jeu de puissance de calcul, et finalement un jeu d'énergie. Musk semble ne plus vouloir attendre et a directement maximisé les ressources.
Il a déclaré que ### un grand modèle amélioré (probablement Grok3) sera achevé d'ici la fin de cette année, moment auquel il sera l'IA la plus puissante au monde.
En fait, NVIDIA a déjà lancé la nouvelle génération de puce H200 et les GPU B100 et B200 basés sur la nouvelle architecture Blackwell. Cependant, ces puces plus avancées ne seront disponibles qu'à la fin de cette année, et des dizaines de milliers d'entre elles ne peuvent pas être produites instantanément. Peut-être pour devenir le plus fort du monde avant ChatGPT5, Musk va plus vite que d'habitude cette fois-ci.
Selon Forbes, Musk n'a finalisé cet accord à Memphis qu'en mars de cette année, après quoi la base du supercalculateur a presque immédiatement commencé sa construction. Pour accélérer les choses, Musk a emprunté 24 000 H100 à Oracle.
Cependant, comme mentionné précédemment, l'entraînement des grands modèles actuels se résume finalement à un jeu d'énergie. Le système de réseau électrique américain est assez obsolète et n'a pas connu de croissance à grande échelle depuis des décennies. En particulier, la structure de consommation d'énergie de l'entraînement de l'IA est très différente de l'électricité résidentielle et commerciale, présentant souvent des pics de consommation ultra-élevés soudains, ce qui met grandement à l'épreuve la charge maximale du réseau électrique. Dans cette situation, il reste peu d'endroits qui peuvent extraire des ressources en énergie et en eau pour soutenir les centres de supercalculateurs.
Selon les estimations du PDG de Memphis Light, Gas and Water, ### le cluster de supercalculateurs de xAI à Memphis utilisera jusqu'à 150 mégawatts d'électricité par heure à son pic, équivalent à la consommation d'énergie de 100 000 ménages.
Actuellement, 32 000 GPU sont en ligne à l'usine de Memphis, et il est prévu que la construction de l'alimentation électrique soit terminée au quatrième trimestre de cette année, et que l'usine fonctionne à pleine vitesse.
Il n'est pas étonnant que certaines personnes se soient demandé si Musk mentait, car ces exigences en matière d'énergie et cette vitesse de construction sont vraiment incroyables.
En plus de l'électricité, ### le cluster de supercalculateurs de xAI devrait avoir besoin d'au moins 1 million de gallons (environ 3,79 millions de litres) d'eau par jour pour le refroidissement.
Selon Forbes, Pearl Walker, membre du conseil municipal de Memphis, a déclaré la semaine dernière : "Les gens ont peur. Ils s'inquiètent des problèmes potentiels d'eau et d'approvisionnement en énergie." Elle a dit qu'actuellement, le centre de données devrait prélever 4,92 millions de litres par jour de l'aquifère souterrain de Memphis, qui est la principale source d'eau de la ville (la ville consomme environ 568 millions de litres d'eau au total par jour). Bien qu'ils disent que ce n'est que temporaire, les plans pour la construction d'une nouvelle usine d'eaux grises n'ont pas encore été finalisés. Le service public de Memphis a également confirmé que le supercalculateur de Musk sera autorisé à utiliser l'eau de l'aquifère souterrain avant que l'usine de traitement ne soit construite et opérationnelle.
Outre Musk, OpenAI et Microsoft déploient également des supercalculateurs à plus grande échelle. Ce supercalculateur nommé "Stargate" aura des millions de puces, avec un coût estimé à 115 milliards de dollars, prévu pour être lancé en 2028.
En avril de cette année, OpenAI a fait planter le réseau électrique de Microsoft. Selon les ingénieurs de Microsoft, ils déployaient à l'époque un cluster d'entraînement de 100 000 H100 pour GPT-6. Musk sera-t-il la première personne à faire fonctionner ensemble 100 000 H100 ?