Plus de confiance dans les clusters auto-construits
En mai, The Information rapportait que Musk prévoyait de construire un cluster de supercalculateurs avec 100 000 H100 d'ici l'automne 2025, en collaboration avec Oracle. xAI devait investir 10 milliards de dollars pour louer les serveurs d'Oracle.
Récemment, Musk a abordé la nouvelle concernant la fin de la collaboration sur le cluster de supercalculateurs avec Oracle. Il a déclaré que xAI avait obtenu des ressources pour 24 000 H100 d'Oracle pour entraîner Grok-2, confirmant la coopération continue de location de serveurs entre xAI et Oracle.
Cependant, pour le cluster de 100 000 GPU H100, ils ont choisi de le construire eux-mêmes et ont avancé à la vitesse la plus rapide, achevant apparemment l'installation des 100 000 cartes en seulement 19 jours.
Dell et Supermicro sont devenus les nouveaux partenaires de Musk. Les PDG des deux entreprises ont récemment exprimé sur Twitter qu'ils collaborent, accompagnés de photos de centres de données.
Musk a personnellement visité le site pendant le processus de construction du cluster. Il a également révélé sur Twitter que Grok s'entraîne à Memphis, et que Grok-2 sera publié en août.
Notamment, Oracle avait précédemment soulevé des inquiétudes concernant l'alimentation électrique pour l'emplacement du cluster. Les estimations suggèrent que 100 000 H100 nécessitent 150 mégawatts de puissance allouée par le réseau, mais Musk semble avoir résolu ce problème.
Les dernières nouvelles indiquent que le cluster dispose actuellement de 8 mégawatts. Après la signature d'un accord le 1er août, ils auront 50 mégawatts. Maintenant, 32 000 cartes sont en ligne, avec 100% prévues d'être en ligne au quatrième trimestre - suffisant pour soutenir l'entraînement et l'exécution de modèles à l'échelle GPT-5.
En conclusion, les géants de l'IA estiment qu'avoir la puissance de calcul entre leurs propres mains est plus fiable, valant la peine de brûler du cash. Les coûts estimés placent chaque H100 à environ 30 000 à 40 000 dollars. Le cluster de supercalculateurs de Musk est évalué à 4 milliards de dollars (plus de 29 milliards de RMB).
Des rapports antérieurs suggéraient que Microsoft et OpenAI prévoyaient un projet de centre de données de 100 milliards de dollars appelé "Stargate". Des initiés ont révélé qu'Oracle et Microsoft concluent un accord impliquant 100 000 GPU B200, le cluster pouvant être prêt d'ici l'été prochain.
De plus, Meta aurait un cluster de supercalculateurs luxueux, tandis que les fournisseurs de cloud comme AWS investissent encore plus dans les centres de données.