Atualização do Nvidia NIM: Uma bênção e um desafio
A Nvidia anunciou que o Nvidia NIM foi otimizado e padronizou a implantação complexa de modelos de IA. O NIM é um elemento-chave no layout de IA da Nvidia. Jensen Huang elogiou repetidamente a inovação trazida pelo NIM, chamando-o de "### IA em uma caixa, essencialmente é inteligência artificial dentro de uma caixa."
Esta atualização sem dúvida consolida a posição de liderança da Nvidia no campo da IA, tornando-se uma parte importante de seu fosso tecnológico.
Por muito tempo, o CUDA foi considerado um fator-chave para a Nvidia estabelecer sua liderança no campo das GPUs. Com o suporte do CUDA, as GPUs evoluíram de processadores gráficos únicos para dispositivos de computação paralela de uso geral, tornando o desenvolvimento de IA possível. No entanto, embora o ecossistema de software da Nvidia seja muito rico, para indústrias tradicionais que carecem de capacidades básicas de desenvolvimento de IA, esses sistemas dispersos ainda são muito complexos e difíceis de dominar.
Para resolver esse problema, em março deste ano, a Nvidia lançou o NIM (Nvidia Inference Microservices) na conferência GTC, integrando todo o software desenvolvido nos últimos anos para simplificar e acelerar a implantação de aplicações de IA. O NIM pode empacotar modelos como "contêineres" otimizados que podem ser implantados na nuvem, em data centers ou estações de trabalho, permitindo que os desenvolvedores concluam o trabalho em minutos, como construir facilmente aplicativos de IA generativa para copilotos, chatbots, etc.
Até agora, o ecossistema NIM da Nvidia já pode fornecer uma série de modelos de IA pré-treinados. A Nvidia anunciou que ajuda os desenvolvedores a acelerar o desenvolvimento e implantação de aplicativos em vários campos, e se concentra em fornecer modelos específicos de IA em diferentes áreas (como compreensão, humanos digitais, desenvolvimento 3D, robótica e biologia digital):
Na direção da compreensão, o NIM pode usar Llama 3.1 e NeMo Retriever para melhorar a capacidade de processamento de dados de texto; na direção de humanos digitais, fornece modelos como Parakeet ASR e FastPitch HiFiGAN, suportando síntese de voz de alta fidelidade e reconhecimento automático de fala, fornecendo ferramentas poderosas para construir assistentes virtuais e humanos digitais;
No aspecto do desenvolvimento 3D, modelos como USD Code e USD Search simplificam a criação e manipulação de cenas 3D, ajudando os desenvolvedores a construir gêmeos digitais e mundos virtuais de forma mais eficiente;
Na direção da incorporação de robôs, a Nvidia lançou os modelos MimicGen e Robocasa, acelerando o desenvolvimento e aplicação da tecnologia robótica através da geração de dados de movimento sintético e ambientes simulados. O MimicGen NIM pode gerar dados de movimento sintético com base em dados de operação remota registrados por dispositivos de computação espacial como o Apple Vision Pro. O Robocasa NIM pode gerar tarefas robóticas e ambientes prontos para simulação no OpenUSD (uma estrutura universal para desenvolvimento e colaboração em mundos 3D).
Modelos como DiffDock e ESMFold no campo da biologia digital fornecem soluções avançadas para descoberta de medicamentos e previsão de dobramento de proteínas, impulsionando o progresso da pesquisa biomédica, entre outros.
Além disso, a Nvidia anunciou que a plataforma de inferência como serviço da Hugging Face também é suportada pelo Nvidia NIM, rodando na nuvem.
Ao integrar esses modelos multifuncionais, esse tipo de ecossistema da Nvidia não apenas melhora a eficiência do desenvolvimento de IA, mas também fornece ferramentas e soluções inovadoras. No entanto, embora as muitas atualizações do Nvidia NIM sejam realmente uma "bênção" para a indústria, por outro lado, também trazem muitos desafios para os programadores.
O Nvidia NIM simplifica muito o processo de desenvolvimento e implantação de modelos de IA fornecendo modelos de IA pré-treinados e APIs padronizadas, o que é realmente uma bênção para os desenvolvedores, mas isso também significa que as oportunidades de emprego para programadores comuns podem se contrair ainda mais no futuro? Afinal, as empresas podem realizar o mesmo trabalho com menos pessoal técnico, pois essas tarefas já foram pré-concluídas pelo NIM, e os programadores comuns podem não precisar mais realizar trabalhos complexos de treinamento e ajuste de modelos.
Ensinando IA a pensar em 3D, construindo um mundo físico virtual
A Nvidia também demonstrou aplicações de IA generativa nas plataformas OpenUSD e Omniverse na conferência SIGGRAPH.
A Nvidia anunciou que construiu o primeiro modelo de IA generativa do mundo capaz de entender linguagem, geometria, materiais, física e espaço baseados em OpenUSD (Universal Scene Description), e empacotou esses modelos como microserviços Nvidia NIM. Atualmente, há três NIMs disponíveis para visualização no catálogo de APIs da Nvidia: USD Code, para responder perguntas de conhecimento sobre OpenUSD e gerar código Python OpenUSD; USD Search, que permite aos desenvolvedores pesquisar em um vasto banco de dados 3D e de imagens OpenUSD usando entrada de linguagem natural ou imagem; e USD Validate, que verifica a compatibilidade dos arquivos carregados com a versão lançada do OpenUSD e gera imagens de rastreamento de caminho totalmente renderizadas em RTX usando a API de nuvem Omniverse.
A Nvidia afirma que, com o aprimoramento e acessibilidade do OpenUSD pelos microserviços Nvidia NIM, todas as indústrias poderão construir mundos virtuais e gêmeos digitais baseados em física no futuro. Com a nova IA generativa baseada em OpenUSD e as estruturas de desenvolvimento acelerado da Nvidia, construídas sobre a plataforma Nvidia Omniverse, mais indústrias agora podem desenvolver aplicativos para visualizar projetos industriais e de engenharia, bem como simular ambientes para construir a próxima onda de IA física e robôs. Além disso, novos conectores USD conectam formatos de dados de simulação robótica e industrial e ferramentas de desenvolvedor, permitindo que os usuários transmitam conjuntos de dados em grande escala, totalmente rastreados por raios Nvidia RTX, para o Apple Vision Pro.
Em resumo, a introdução do USD através do Nvidia NIM, permitindo que os grandes modelos entendam melhor o mundo físico e construam mundos virtuais, é um ativo digital muito valioso. Por exemplo, em 2019, a Catedral de Notre-Dame em Paris sofreu um incêndio grave, com grande parte da igreja sendo destruída. Felizmente, os designers de jogos da Ubisoft haviam visitado o edifício inúmeras vezes, estudando sua estrutura, e completaram o trabalho de restauração digital de Notre-Dame, recriando todos os detalhes da catedral no jogo AAA "Assassin's Creed: Unity", o que também trouxe grande ajuda para a restauração de Notre-Dame. Na época, os designers e historiadores levaram dois anos para recriar, mas com o lançamento desta tecnologia, podemos acelerar significativamente a recriação de cópias digitais no futuro, usando IA para entender e recriar o mundo físico de forma mais refinada.
Outro exemplo é que os designers podem construir cenas 3D básicas no Omniverse e usar essas cenas para ajustar a IA generativa, realizando um processo de criação de conteúdo controlável e colaborativo. Por exemplo, a WPP e a Coca-Cola Company foram as primeiras a adotar este fluxo de trabalho para expandir sua campanha publicitária global.
A Nvidia também anunciou que lançará em breve vários novos microserviços NIM, incluindo USD Layout, USD Smart Material e FDB Mesh Generation, para melhorar ainda mais as capacidades e eficiência dos desenvolvedores na plataforma OpenUSD.
Desta vez, a NVIDIA Research participou da conferência com mais de 20 artigos, compartilhando resultados inovadores que impulsionam o desenvolvimento de geradores de dados sintéticos e ferramentas de renderização inversa, dois dos quais ganharam o prêmio de Melhor Artigo Técnico. A pesquisa apresentada este ano mostra que ### a IA melhora as capacidades de simulação melhorando a qualidade da imagem e desbloqueando novas formas de representação 3D; ao mesmo tempo, geradores de dados sintéticos aprimorados e mais conteúdo também melhoram o nível da IA. Essas pesquisas demonstram os mais recentes avanços e inovações da Nvidia nos campos de IA e simulação.
A Nvidia afirma que designers e artistas agora têm novas formas aprimoradas de aumentar a produtividade usando IA generativa treinada em dados licenciados. Por exemplo, a Shutterstock (fornecedora de imagens dos EUA) lançou uma versão beta comercial de seu serviço 3D generativo. Ele permite que os criadores prototipem rapidamente ativos 3D e gerem fundos HDRi 360 para iluminar cenas usando apenas prompts de texto ou imagem; e a Getty Images (empresa de negociação de imagens dos EUA) acelerou seu serviço de IA generativa, dobrando a velocidade de geração de imagens e melhorando a qualidade da saída. Esses serviços são baseados na arquitetura de IA generativa multimodal Nvidia Edify, que dobra a velocidade com novos modelos, melhora a qualidade da imagem e a precisão do prompt, e permite que os usuários controlem configurações de câmera como profundidade de campo ou distância focal. Os usuários podem gerar quatro imagens em cerca de seis segundos e ampliá-las para resolução 4K.
Conclusão
Nas várias ocasiões em que Jensen Huang aparece, ele sempre veste uma jaqueta de couro, descrevendo para o mundo o futuro emocionante trazido pela IA.
Também experimentamos o crescimento da Nvidia, testemunhando a Nvidia evoluir passo a passo de um gigante de GPUs para jogos para um líder em chips de IA, e então para um layout de pilha completa de hardware e software de IA, a ambição da Nvidia é abundante, iterando rapidamente na vanguarda da onda tecnológica da IA.
Desde GPUs com sombreamento programável, computação acelerada CUDA, até o lançamento do Nvidia Omniverse e microserviços NIM de IA generativa, e o desenvolvimento de modelagem 3D, simulação robótica e tecnologia de gêmeos digitais, isso também significa a chegada de uma nova rodada de inovação na indústria de IA.
No entanto, à medida que as grandes empresas têm mais recursos, incluindo fundos, tecnologia e mão de obra, elas podem adotar e implementar tecnologias avançadas como o Nvidia NIM mais rapidamente. Enquanto isso, pequenas e médias empresas podem ter dificuldade em acompanhar o ritmo do desenvolvimento tecnológico devido a recursos limitados. Além disso, com as diferentes habilidades técnicas dos talentos, isso levará a mais desigualdade tecnológica no futuro?
A IA ideal para os humanos é aquela que ajuda a libertar as mãos e a força de trabalho humana, trazendo um mundo de maior produtividade para a humanidade. Mas quando a produtividade e os meios de produção são controlados por poucas pessoas, isso não desencadeará uma crise mais profunda? Estas são questões que precisamos considerar.