Tesla supercomputadora desafía a GPT: Musk despliega 100,000 chips

utilizando 100.000 GPUs NVIDIA H100 refrigeradas por líquido conectadas a través de una única red RDMA.

RDMA (Acceso Directo a Memoria Remota) permite transferir datos directamente de una computadora a otra sin involucrar los sistemas operativos de ninguna de las partes. Una única RDMA crea una comunicación de red de alto rendimiento y baja latencia, particularmente adecuada para su uso en clusters de computadoras paralelas a gran escala.

En términos de escala, el centro de supercomputación Memphis de xAI ### ya se ha convertido en el número uno mundial en potencia de cálculo, superando por mucho las 25.000 GPUs A100 utilizadas por OpenAI para entrenar GPT-4, así como Aurora (60.000 GPUs Intel) y Microsoft Eagle (14.400 GPUs Nvidia H100), e incluso superando a la anterior supercomputadora más rápida del mundo, Frontier (37.888 GPUs AMD).

El H100 es un chip desarrollado por NVIDIA específicamente para procesar datos de modelos de lenguaje grandes, con un costo de alrededor de $30.000 por chip. Esto significa que ### el valor de los chips por sí solos para el nuevo centro de supercomputación de xAI es de aproximadamente $3 mil millones.

Anteriormente, xAI de Musk había estado relativamente silencioso, y la IA llamada Grok lanzada por xAI a menudo era criticada por no ser fácil de usar. Sin embargo, dada la situación actual, el entrenamiento de modelos grandes es un juego de potencia de cálculo, y en última instancia, un juego de energía. Musk parece no querer esperar más y ha maximizado directamente los recursos.

Afirmó que ### un modelo grande mejorado (probablemente Grok3) estará terminado para finales de este año, momento en el que será la IA más poderosa del mundo.

De hecho, NVIDIA ya ha lanzado el chip de nueva generación H200 y las GPUs B100 y B200 basadas en la nueva arquitectura Blackwell. Sin embargo, estos chips más avanzados no estarán disponibles hasta finales de este año, y no se pueden producir decenas de miles de ellos instantáneamente. Quizás para convertirse en el más fuerte del mundo antes que ChatGPT5, Musk se está moviendo más rápido de lo habitual esta vez.

Según Forbes, Musk solo finalizó este acuerdo en Memphis en marzo de este año, después de lo cual la base de supercomputación comenzó la construcción casi inmediatamente. Para acelerar las cosas, Musk pidió prestadas 24.000 H100 a Oracle.

Sin embargo, como se mencionó anteriormente, el entrenamiento de modelos grandes actuales se reduce en última instancia a un juego de energía. El sistema de red eléctrica de EE. UU. es bastante antiguo y no ha experimentado un crecimiento a gran escala durante décadas. Especialmente la estructura de consumo de energía del entrenamiento de IA es muy diferente de la electricidad residencial y comercial, a menudo apareciendo repentinamente picos de consumo de energía ultra altos, desafiando enormemente la carga máxima de la red eléctrica. En esta situación, quedan pocos lugares que puedan exprimir recursos de energía y agua para soportar centros de supercomputación.

Según las estimaciones del CEO de Memphis Light, Gas and Water, ### el cluster de supercomputación de xAI en Memphis utilizará hasta 150 megavatios de electricidad por hora en su punto máximo, equivalente al consumo de energía de 100.000 hogares.

Actualmente, 32.000 GPUs están en línea en la fábrica de Memphis, y se espera que la construcción del suministro de energía se complete en el cuarto trimestre de este año, y la fábrica funcionará a plena capacidad.

No es de extrañar que algunas personas cuestionaran si Musk estaba mintiendo, porque estos requisitos de energía y velocidad de construcción son realmente increíbles.

Además de la electricidad, ### se espera que el cluster de supercomputación de xAI necesite al menos 1 millón de galones (aproximadamente 3,79 millones de litros) de agua por día para enfriamiento.

Según Forbes, la concejal de la ciudad de Memphis, Pearl Walker, dijo la semana pasada: "La gente está asustada. Están preocupados por posibles problemas de agua y suministro de energía". Dijo que actualmente, se espera que el centro de datos extraiga 4,92 millones de litros por día del acuífero subterráneo de Memphis, que es la principal fuente de agua de la ciudad (la ciudad consume un total de unos 568 millones de litros de agua al día). Aunque dicen que esto es solo temporal, los planes para construir una nueva planta de aguas grises aún no se han finalizado. El departamento de servicios públicos de Memphis también ha confirmado que se permitirá que la supercomputadora de Musk use agua del acuífero subterráneo antes de que se construya y esté operativa la planta de tratamiento.

Además de Musk, OpenAI y Microsoft también están desplegando supercomputadoras a mayor escala. Esta supercomputadora llamada "Stargate" tendrá millones de chips, con un costo estimado de $115 mil millones, planeada para ser lanzada en 2028.

En abril de este año, OpenAI colapsó la red eléctrica de Microsoft. Según los ingenieros de Microsoft, estaban desplegando un cluster de entrenamiento de 100.000 H100 para GPT-6 en ese momento. ¿Será Musk la primera persona en lograr que 100.000 H100 trabajen juntas?

Tesla supercomputadora desafía a GPT: Musk despliega 100,000 chips

¡Velocidad asombrosa!

utilizando 100.000 GPUs NVIDIA H100 refrigeradas por líquido conectadas a través de una única red RDMA.