Más confianza en los clústeres autoconstruidos
En mayo, The Information informó que Musk planeaba construir un clúster de supercomputadoras con 100,000 H100 para el otoño de 2025, colaborando con Oracle. Se dijo que xAI invertiría $10 mil millones para arrendar los servidores de Oracle.
Recientemente, Musk abordó la noticia sobre la terminación de la colaboración del clúster de supercomputadoras con Oracle. Afirmó que xAI obtuvo recursos para 24,000 H100 de Oracle para entrenar a Grok-2, confirmando la cooperación continua de arrendamiento de servidores entre xAI y Oracle.
Sin embargo, para el clúster de 100,000 GPU H100, optaron por construirlo ellos mismos y avanzaron a la máxima velocidad, supuestamente completando la instalación de 100,000 tarjetas en solo 19 días.
Dell y Supermicro se convirtieron en los nuevos socios de Musk. Los CEO de ambas compañías expresaron recientemente en Twitter que están colaborando, acompañados de fotos de centros de datos.
Musk visitó personalmente el sitio durante el proceso de construcción del clúster. También reveló en Twitter que Grok se está entrenando en Memphis, y Grok-2 se lanzará en agosto.
Notablemente, Oracle previamente expresó preocupaciones sobre el suministro de energía para la ubicación del clúster. Las estimaciones sugieren que 100,000 H100 requieren 150 megavatios de energía asignados de la red, pero Musk parece haber resuelto este problema.
Las últimas noticias indican que el clúster actualmente tiene 8 megavatios. Después de firmar un acuerdo el 1 de agosto, tendrán 50 megavatios. Ahora, 32,000 tarjetas están en línea, con el 100% esperado para estar en línea en el cuarto trimestre - suficiente para soportar el entrenamiento y la ejecución de modelos a escala GPT-5.
En conclusión, los gigantes de la IA creen que tener el poder de cómputo en sus propias manos es más confiable, vale la pena quemar efectivo por ello. Los costos estimados sitúan cada H100 en alrededor de $30,000-$40,000. El clúster de supercomputadoras de Musk está valorado en $4 mil millones (más de 29 mil millones de RMB).
Informes anteriores sugerían que Microsoft y OpenAI estaban planeando un proyecto de centro de datos de $100 mil millones llamado "Stargate". Fuentes internas revelaron que Oracle y Microsoft están llegando a un acuerdo que involucra 100,000 GPU B200, con el clúster posiblemente listo para el próximo verano.
Además, se ha rumoreado que Meta tiene un lujoso clúster de supercomputadoras, mientras que proveedores de nube como AWS están invirtiendo aún más en centros de datos.