Mais Confiança em Clusters Autoconstruídos
Em maio, o The Information relatou que Musk planejava construir um cluster de supercomputador com 100.000 H100s até o outono de 2025, em colaboração com a Oracle. Dizia-se que a xAI investiria $10 bilhões para alugar os servidores da Oracle.
Recentemente, Musk abordou as notícias sobre o término da colaboração do cluster de supercomputador com a Oracle. Ele afirmou que a xAI obteve recursos para 24.000 H100s da Oracle para treinar o Grok-2, confirmando a cooperação contínua de aluguel de servidores entre a xAI e a Oracle.
No entanto, para o cluster de 100.000 GPUs H100, eles optaram por construí-lo por conta própria e avançaram na velocidade máxima, supostamente concluindo a instalação de 100.000 placas em apenas 19 dias.
Dell e Supermicro tornaram-se os novos parceiros de Musk. Os CEOs de ambas as empresas expressaram recentemente no Twitter que estão colaborando, acompanhados de fotos de data centers.
Musk visitou pessoalmente o local durante o processo de construção do cluster. Ele também revelou no Twitter que o Grok está treinando em Memphis, e o Grok-2 será lançado em agosto.
Notavelmente, a Oracle anteriormente levantou preocupações sobre o fornecimento de energia para o local do cluster. Estimativas sugerem que 100.000 H100s requerem 150 megawatts de energia alocados da rede, mas Musk parece ter resolvido essa questão.
As últimas notícias indicam que o cluster atualmente tem 8 megawatts. Após assinar um acordo em 1º de agosto, eles terão 50 megawatts. Agora, 32.000 placas estão online, com expectativa de 100% online no quarto trimestre - suficiente para suportar o treinamento e execução de modelos em escala GPT-5.
Em conclusão, os gigantes da IA acreditam que ter poder computacional em suas próprias mãos é mais confiável, valendo a pena queimar dinheiro por isso. Custos estimados colocam cada H100 em cerca de $30.000-$40.000. O cluster de supercomputador de Musk é avaliado em $4 bilhões (mais de 29 bilhões de RMB).
Relatórios anteriores sugeriam que Microsoft e OpenAI estavam planejando um projeto de data center de $100 bilhões chamado "Stargate". Fontes internas revelaram que Oracle e Microsoft estão chegando a um acordo envolvendo 100.000 GPUs B200, com o cluster possivelmente pronto até o próximo verão.
Além disso, rumores indicam que a Meta possui um cluster de supercomputador luxuoso, enquanto provedores de nuvem como a AWS estão investindo ainda mais em data centers.