NVIDIA lance un système d'IA amélioré, Jensen Huang vise un monde de jumeaux numériques

NVIDIA lance une version améliorée de la technologie NIM, offrant un puissant moteur pour les applications d'intelligence artificielle dans tous les secteurs.

Mise à niveau de Nvidia NIM : à la fois une bénédiction et un défi

Nvidia a annoncé que Nvidia NIM a été davantage optimisé et a standardisé le déploiement complexe des modèles d'IA. NIM est un élément clé de la stratégie d'IA de Nvidia. Jensen Huang a souvent loué l'innovation apportée par NIM, le qualifiant de "### IA dans une boîte, essentiellement c'est l'intelligence artificielle dans une boîte."

Cette mise à niveau consolide sans aucun doute la position de leader de Nvidia dans le domaine de l'IA, devenant une partie importante de son fossé technologique.

CUDA a longtemps été considéré comme un facteur clé dans l'établissement de la position de leader de Nvidia dans le domaine des GPU. Avec le soutien de CUDA, les GPU sont passés de simples processeurs graphiques à des dispositifs de calcul parallèle à usage général, rendant possible le développement de l'IA. Cependant, bien que l'écosystème logiciel de Nvidia soit très riche, ces systèmes dispersés restent trop complexes et difficiles à maîtriser pour les industries traditionnelles manquant de capacités de développement de base en IA.

Pour résoudre ce problème, en mars de cette année, Nvidia a lancé le microservice natif cloud NIM (Nvidia Inference Microservices) lors de la conférence GTC, intégrant tous les logiciels développés ces dernières années pour simplifier et accélérer le déploiement des applications d'IA. NIM peut traiter les modèles comme des "conteneurs" optimisés qui peuvent être déployés dans le cloud, les centres de données ou les stations de travail, permettant aux développeurs de terminer leur travail en quelques minutes, comme construire facilement des applications d'IA générative pour les copilotes, les chatbots, etc.

Maintenant, l'écosystème NIM mis en place par Nvidia peut fournir une série de modèles d'IA pré-entraînés. Nvidia a annoncé qu'il aide les développeurs à accélérer le développement et le déploiement d'applications dans plusieurs domaines, et se concentre sur la fourniture de modèles d'IA spécifiques dans différents domaines (tels que la compréhension, les humains numériques, le développement 3D, la robotique et la biologie numérique) :

Dans le domaine de la compréhension, NIM peut utiliser Llama 3.1 et NeMo Retriever pour améliorer la capacité de traitement des données textuelles ; dans le domaine des humains numériques, il fournit des modèles tels que Parakeet ASR et FastPitch HiFiGAN, prenant en charge la synthèse vocale haute fidélité et la reconnaissance vocale automatique, offrant des outils puissants pour construire des assistants virtuels et des humains numériques ;

Dans le domaine du développement 3D, des modèles tels que USD Code et USD Search simplifient la création et la manipulation de scènes 3D, aidant les développeurs à construire plus efficacement des jumeaux numériques et des mondes virtuels ;

Dans le domaine de l'incarnation robotique, Nvidia a lancé les modèles MimicGen et Robocasa, accélérant la recherche et le développement et l'application de la technologie robotique en générant des données de mouvement synthétiques et des environnements simulés. MimicGen NIM peut générer des données de mouvement synthétiques basées sur les données d'opération à distance enregistrées par des appareils de calcul spatial tels que l'Apple Vision Pro. Robocasa NIM peut générer des tâches robotiques et des environnements prêts pour la simulation dans OpenUSD (un cadre universel pour le développement et la collaboration dans les mondes 3D).

Dans le domaine de la biologie numérique, des modèles tels que DiffDock et ESMFold fournissent des solutions avancées pour la découverte de médicaments et la prédiction du repliement des protéines, faisant progresser la recherche biomédicale, etc.

De plus, Nvidia a annoncé que la plateforme d'inférence en tant que service de Hugging Face est également prise en charge par Nvidia NIM, fonctionnant dans le cloud.

En intégrant ces modèles multifonctionnels, cet écosystème de Nvidia non seulement améliore l'efficacité du développement de l'IA, mais fournit également des outils et des solutions innovants. Cependant, bien que les nombreuses mises à niveau de Nvidia NIM soient certainement une "bénédiction" pour l'industrie, d'un autre côté, elles apportent également de nombreux défis aux programmeurs.

Nvidia NIM simplifie grandement le processus de développement et de déploiement des modèles d'IA en fournissant des modèles d'IA pré-entraînés et des API standardisées, ce qui est certainement une bénédiction pour les développeurs, mais cela signifie-t-il également que les opportunités d'emploi pour les programmeurs ordinaires pourraient se réduire davantage à l'avenir ? Après tout, les entreprises peuvent accomplir le même travail avec moins de personnel technique, car ces tâches ont déjà été effectuées par NIM, et les programmeurs ordinaires pourraient ne plus avoir besoin d'effectuer des travaux complexes de formation et d'ajustement de modèles.

Enseigner à l'IA à penser en 3D, construire un monde physique virtuel

Nvidia a également présenté lors de la conférence SIGGRAPH les applications de l'IA générative sur les plateformes OpenUSD et Omniverse.

Nvidia a annoncé avoir construit le premier modèle d'IA générative au monde capable de comprendre le langage, la géométrie, les matériaux, la physique et l'espace basés sur OpenUSD (Universal Scene Description), et a emballé ces modèles en tant que microservices Nvidia NIM. Actuellement, trois NIM sont disponibles en prévisualisation dans le catalogue d'API Nvidia : USD Code, pour répondre aux questions de connaissances sur OpenUSD et générer du code Python OpenUSD ; USD Search, permettant aux développeurs de rechercher dans une vaste base de données 3D et d'images OpenUSD en utilisant des entrées en langage naturel ou des images ; USD Validate, qui peut vérifier la compatibilité des fichiers téléchargés avec la version publiée d'OpenUSD et générer des images de tracé de chemin entièrement rendues par RTX en utilisant l'API cloud Omniverse.

Nvidia a déclaré qu'avec l'amélioration et l'accessibilité accrue d'OpenUSD par les microservices Nvidia NIM, toutes les industries pourront à l'avenir construire des mondes virtuels et des jumeaux numériques basés sur la physique. Grâce à la nouvelle IA générative basée sur OpenUSD et aux cadres de développement accélérés de Nvidia, construits sur la plateforme Nvidia Omniverse, davantage d'industries peuvent désormais développer des applications pour visualiser les projets de conception et d'ingénierie industrielles, ainsi que pour simuler des environnements pour construire la prochaine vague d'IA physique et de robotique. De plus, de nouveaux connecteurs USD relient les formats de données de simulation robotique et industrielle ainsi que les outils de développement, permettant aux utilisateurs de diffuser en continu des ensembles de données à grande échelle entièrement tracés par rayons Nvidia RTX vers Apple Vision Pro.

En bref, l'introduction d'USD via Nvidia NIM, permettant une meilleure compréhension du monde physique et la construction de mondes virtuels par les grands modèles, est un atout numérique très précieux. Par exemple, en 2019, la cathédrale Notre-Dame de Paris a subi un grave incendie, détruisant une grande partie de l'église. Heureusement, les concepteurs de jeux d'Ubisoft avaient visité ce bâtiment d'innombrables fois, étudiant sa structure, et avaient réalisé une restauration numérique de Notre-Dame, recréant tous les détails de la cathédrale dans le jeu AAA "Assassin's Creed: Unity", ce qui a grandement aidé à la restauration de Notre-Dame. À l'époque, les designers et les historiens ont mis deux ans pour reproduire, mais avec le lancement de cette technologie, nous pourrons accélérer considérablement la recréation de copies numériques à l'avenir, en utilisant l'IA pour comprendre et reproduire le monde physique de manière plus détaillée.

Par exemple, les designers construisent des scènes 3D de base dans Omniverse et utilisent ces scènes pour ajuster l'IA générative, réalisant un processus de création de contenu contrôlable et collaboratif. Par exemple, WPP et The Coca-Cola Company ont été les premiers à adopter ce flux de travail pour étendre leur campagne publicitaire mondiale.

Nvidia a également annoncé le lancement prochain de plusieurs nouveaux microservices NIM, notamment USD Layout, USD Smart Material et FDB Mesh Generation, pour améliorer davantage les capacités et l'efficacité des développeurs sur la plateforme OpenUSD.

Cette fois, NVIDIA Research a présenté plus de 20 articles à la conférence, partageant des résultats innovants dans le développement de générateurs de données synthétiques et d'outils de rendu inverse, dont deux ont remporté le prix du meilleur article technique. La recherche présentée cette année montre que ### l'IA améliore les capacités de simulation en améliorant la qualité des images et en débloquant de nouvelles formes de représentation 3D ; en même temps, des générateurs de données synthétiques améliorés et plus de contenu améliorent également le niveau de l'IA. Ces recherches démontrent les dernières avancées et innovations de Nvidia dans les domaines de l'IA et de la simulation.

Nvidia a déclaré que les designers et les artistes disposent désormais de nouvelles méthodes améliorées pour augmenter leur productivité en utilisant l'IA générative formée sur des données sous licence. Par exemple, Shutterstock (fournisseur d'images américain) a lancé une version bêta commerciale de son service 3D génératif. Il permet aux créateurs de prototyper rapidement des actifs 3D et de générer des arrière-plans HDRi 360 pour éclairer les scènes en utilisant uniquement des invites textuelles ou d'images ; et Getty Images (société américaine de commerce d'images) a accéléré son service d'IA générative, doublant la vitesse de génération d'images et améliorant la qualité de sortie. Ces services sont basés sur l'architecture d'IA générative multimodale Nvidia Edify, qui double la vitesse grâce à de nouveaux modèles, améliore la qualité des images et la précision des invites, et permet aux utilisateurs de contrôler les paramètres de la caméra, tels que la profondeur de champ ou la distance focale. Les utilisateurs peuvent générer quatre images en environ six secondes et les agrandir à une résolution 4K.

Conclusion

Dans les diverses occasions où Jensen Huang apparaît, il porte toujours une veste en cuir, décrivant au monde l'avenir passionnant apporté par l'IA.

Nous avons également vécu la croissance de Nvidia, témoins de son évolution progressive de géant du GPU de jeu à leader des puces IA, puis à une disposition complète du matériel et du logiciel IA. Nvidia est pleine d'ambition, itérant rapidement à l'avant-garde de la vague technologique de l'IA.

Du GPU à ombrage programmable, du calcul accéléré CUDA, au lancement de Nvidia Omniverse et des microservices NIM d'IA générative, jusqu'à la promotion du développement de la modélisation 3D, de la simulation robotique et de la technologie des jumeaux numériques, cela signifie également l'arrivée d'une nouvelle vague d'innovation dans l'industrie de l'IA.

Cependant, à mesure que les grandes entreprises disposent de plus de ressources, y compris des fonds, de la technologie et de la main-d'œuvre, elles peuvent adopter et mettre en œuvre plus rapidement des technologies avancées telles que Nvidia NIM. Les petites et moyennes entreprises, en raison de ressources limitées, peuvent avoir du mal à suivre le rythme du développement technologique. De plus, avec les différents niveaux de compétences techniques des talents, cela conduira-t-il à une aggravation des inégalités technologiques à l'avenir ?

L'IA idéale pour l'humanité est celle qui aide à libérer les mains et la main-d'œuvre humaines, apportant un monde de productivité plus élevée. Mais lorsque les forces productives et les moyens de production sont entre les mains d'une minorité, cela ne risque-t-il pas de provoquer une crise plus profonde ? Ce sont toutes des questions que nous devons considérer.