Tesla supercomputador desafia GPT: Musk implanta 100.000 chips

usando 100.000 GPUs NVIDIA H100 refrigeradas a líquido conectadas através de uma única rede RDMA.

RDMA (Acesso Remoto Direto à Memória) permite que os dados sejam transferidos diretamente de um computador para outro sem envolver os sistemas operacionais de nenhum dos lados. Uma única RDMA cria uma comunicação de rede de alta taxa de transferência e baixa latência, particularmente adequada para uso em clusters de computadores paralelos em grande escala.

Em termos de escala, o centro de supercomputador Memphis da xAI ### já se tornou o número um mundial em poder computacional, superando em muito as 25.000 GPUs A100 usadas pela OpenAI para treinar o GPT-4, bem como Aurora (60.000 GPUs Intel) e Microsoft Eagle (14.400 GPUs Nvidia H100), e até mesmo excedendo o anterior supercomputador mais rápido do mundo, Frontier (37.888 GPUs AMD).

O H100 é um chip desenvolvido pela NVIDIA especificamente para processar dados de modelos de linguagem grandes, com cada chip custando cerca de $30.000. Isso significa que ### o valor dos chips sozinho para o novo centro de supercomputador da xAI é de cerca de $3 bilhões.

Anteriormente, a xAI de Musk estava relativamente quieta, e a IA chamada Grok lançada pela xAI era frequentemente criticada como não amigável ao usuário. No entanto, dada a situação atual, o treinamento de grandes modelos é um jogo de poder computacional e, em última análise, um jogo de energia. Musk parece não querer esperar mais e maximizou diretamente os recursos.

Ele afirmou que ### um modelo grande aprimorado (provavelmente o Grok3) será concluído até o final deste ano, momento em que será a IA mais poderosa do mundo.

Na verdade, a NVIDIA já lançou o novo chip de geração H200 e as GPUs B100 e B200 baseadas na nova arquitetura Blackwell. No entanto, esses chips mais avançados não estarão disponíveis até o final deste ano, e dezenas de milhares deles não podem ser produzidos instantaneamente. Talvez para se tornar o mais forte do mundo antes do ChatGPT5, Musk esteja se movendo mais rápido que o habitual desta vez.

De acordo com a Forbes, Musk só finalizou este acordo em Memphis em março deste ano, após o qual a base do supercomputador começou a construção quase imediatamente. Para acelerar as coisas, Musk pegou emprestado 24.000 H100s da Oracle.

No entanto, como mencionado anteriormente, o treinamento de grandes modelos atuais se resume, em última análise, a um jogo de energia. O sistema de rede elétrica dos EUA é bastante antiquado e não testemunhou um crescimento em grande escala por décadas. Especialmente a estrutura de consumo de energia do treinamento de IA é muito diferente da eletricidade residencial e comercial, muitas vezes aparecendo repentinamente picos de consumo de energia ultra-altos, desafiando muito a carga máxima da rede elétrica. Nesta situação, restam poucos lugares que podem espremer recursos de energia e água para suportar centros de supercomputadores.

De acordo com estimativas do CEO da Memphis Light, Gas and Water, ### o cluster de supercomputadores Memphis da xAI usará até 150 megawatts de eletricidade por hora em seu pico, equivalente ao consumo de energia de 100.000 residências.

Atualmente, 32.000 GPUs estão online na fábrica de Memphis, e espera-se que a construção do fornecimento de energia seja concluída no quarto trimestre deste ano, e a fábrica funcionará em plena velocidade.

Não é de admirar que algumas pessoas questionassem se Musk estava mentindo, porque esses requisitos de energia e velocidade de construção são verdadeiramente incríveis.

Além da eletricidade, ### espera-se que o cluster de supercomputadores da xAI precise de pelo menos 1 milhão de galões (cerca de 3,79 milhões de litros) de água por dia para resfriamento.

De acordo com a Forbes, a membro do Conselho da Cidade de Memphis, Pearl Walker, disse na semana passada: "As pessoas estão assustadas. Elas estão preocupadas com possíveis problemas de água e problemas de fornecimento de energia." Ela disse que atualmente, espera-se que o centro de dados retire 4,92 milhões de litros por dia do aquífero subterrâneo de Memphis, que é a principal fonte de água da cidade (a cidade consome cerca de 568 milhões de litros de água no total por dia). Embora digam que isso é apenas temporário, os planos para a construção de uma nova estação de tratamento de água cinza ainda não foram finalizados. O departamento de utilidades de Memphis também confirmou que o supercomputador de Musk terá permissão para usar água do aquífero subterrâneo antes que a estação de tratamento seja construída e operacional.

Além de Musk, OpenAI e Microsoft também estão implantando supercomputadores em escala maior. Este supercomputador chamado "Stargate" terá milhões de chips, com um custo estimado de $115 bilhões, planejado para ser lançado em 2028.

Em abril deste ano, a OpenAI derrubou a rede elétrica da Microsoft. De acordo com engenheiros da Microsoft, eles estavam implantando um cluster de treinamento de 100.000 H100s para o GPT-6 na época. Será Musk a primeira pessoa a conseguir 100.000 H100s trabalhando juntos?

Tesla supercomputador desafia GPT: Musk implanta 100.000 chips

Velocidade impressionante!

usando 100.000 GPUs NVIDIA H100 refrigeradas a líquido conectadas através de uma única rede RDMA.