Actualización de Nvidia NIM: Una bendición y un desafío
NVIDIA anunció que Nvidia NIM ha logrado una mayor optimización y ha estandarizado la implementación compleja de modelos de IA. NIM es un elemento clave en la estrategia de IA de NVIDIA. Jensen Huang ha elogiado repetidamente la innovación que trae NIM, llamándola "### IA en una caja, esencialmente es inteligencia artificial en una caja".
Esta actualización sin duda consolida la posición de liderazgo de NVIDIA en el campo de la IA, convirtiéndose en una parte importante de su foso tecnológico.
CUDA ha sido considerado durante mucho tiempo como un factor clave en el establecimiento del liderazgo de NVIDIA en el campo de las GPU. Con el apoyo de CUDA, las GPU evolucionaron de procesadores gráficos únicos a dispositivos de computación paralela de propósito general, haciendo posible el desarrollo de IA. Sin embargo, aunque el ecosistema de software de NVIDIA es muy rico, estos sistemas dispersos siguen siendo demasiado complejos y difíciles de dominar para las industrias tradicionales que carecen de capacidades básicas de desarrollo de IA.
Para abordar este problema, en marzo de este año, NVIDIA lanzó NIM (Nvidia Inference Microservices) en la conferencia GTC, integrando todo el software desarrollado en los últimos años para simplificar y acelerar la implementación de aplicaciones de IA. NIM puede empaquetar modelos como "contenedores" optimizados que se pueden implementar en la nube, centros de datos o estaciones de trabajo, permitiendo a los desarrolladores completar su trabajo en minutos, como construir fácilmente aplicaciones de IA generativa para copilotos, chatbots, etc.
Hasta ahora, el ecosistema NIM desplegado por NVIDIA ya puede proporcionar una serie de modelos de IA preentrenados. NVIDIA anunció que ayuda a los desarrolladores a acelerar el desarrollo y la implementación de aplicaciones en múltiples campos, y se enfoca en proporcionar modelos de IA específicos en diferentes áreas (como comprensión, humanos digitales, desarrollo 3D, robótica y biología digital):
En la dirección de comprensión, NIM puede usar Llama 3.1 y NeMo Retriever para mejorar la capacidad de procesamiento de datos de texto; en la dirección de humanos digitales, proporciona modelos como Parakeet ASR y FastPitch HiFiGAN, que admiten síntesis de voz de alta fidelidad y reconocimiento automático de voz, proporcionando herramientas poderosas para construir asistentes virtuales y humanos digitales;
En términos de desarrollo 3D, modelos como USD Code y USD Search simplifican la creación y manipulación de escenas 3D, ayudando a los desarrolladores a construir gemelos digitales y mundos virtuales de manera más eficiente;
En la dirección de la encarnación robótica, NVIDIA lanzó los modelos MimicGen y Robocasa, que aceleran la investigación y desarrollo y aplicación de la tecnología robótica mediante la generación de datos de movimiento sintético y entornos simulados. MimicGen NIM puede generar datos de movimiento sintético basados en datos de operación remota registrados por dispositivos de computación espacial como Apple Vision Pro. Robocasa NIM puede generar tareas robóticas y entornos listos para simulación en OpenUSD (un marco universal para el desarrollo y la colaboración en mundos 3D).
Modelos como DiffDock y ESMFold en el campo de la biología digital proporcionan soluciones avanzadas en el descubrimiento de fármacos y la predicción del plegamiento de proteínas, impulsando el progreso de la investigación biomédica, etc.
Además, NVIDIA anunció que la plataforma de inferencia como servicio de Hugging Face también está respaldada por Nvidia NIM y se ejecuta en la nube.
Al integrar estos modelos multifuncionales, este tipo de ecosistema de NVIDIA no solo mejora la eficiencia del desarrollo de IA, sino que también proporciona herramientas y soluciones innovadoras. Sin embargo, aunque las numerosas actualizaciones de Nvidia NIM son ciertamente una "bendición" para la industria. Pero desde otro punto de vista, también trae muchos desafíos para los programadores.
Nvidia NIM simplifica en gran medida el proceso de desarrollo e implementación de modelos de IA al proporcionar modelos de IA preentrenados y API estandarizadas, lo cual es ciertamente una bendición para los desarrolladores, pero ¿también significa que las oportunidades de empleo para los programadores comunes pueden reducirse aún más en el futuro? Después de todo, las empresas pueden completar el mismo trabajo con menos personal técnico porque estas tareas ya han sido completadas previamente por NIM, y es posible que los programadores comunes ya no necesiten realizar trabajos complejos de entrenamiento y ajuste de modelos.
Enseñar a la IA a pensar en 3D, construyendo un mundo físico virtual
NVIDIA también mostró aplicaciones de IA generativa en las plataformas OpenUSD y Omniverse en la conferencia SIGGRAPH.
NVIDIA anunció que ha construido el primer modelo de IA generativa del mundo capaz de comprender el lenguaje, la geometría, los materiales, la física y el espacio basados en OpenUSD (Universal Scene Description), y ha empaquetado estos modelos como microservicios Nvidia NIM. Actualmente, hay tres NIM disponibles para vista previa en el catálogo de API de NVIDIA: USD Code, para responder preguntas de conocimiento sobre OpenUSD y generar código Python OpenUSD; USD Search, que permite a los desarrolladores buscar en una gran base de datos 3D y de imágenes OpenUSD utilizando entradas de lenguaje natural o imágenes; y USD Validate, que puede verificar la compatibilidad de los archivos cargados con la versión publicada de OpenUSD y generar imágenes de trazado de rayos completamente renderizadas con RTX utilizando la API en la nube de Omniverse.
NVIDIA afirma que con las mejoras y la accesibilidad de los microservicios Nvidia NIM para OpenUSD, todas las industrias podrán construir mundos virtuales basados en física y gemelos digitales en el futuro. A través de la nueva IA generativa basada en OpenUSD y los marcos de desarrollo acelerado de NVIDIA, construidos sobre la plataforma NVIDIA Omniverse, más industrias ahora pueden desarrollar aplicaciones para visualizar diseños industriales y proyectos de ingeniería, así como entornos de simulación para construir la próxima ola de IA física y robótica. Además, los nuevos conectores USD conectan formatos de datos de simulación robótica e industrial y herramientas de desarrollo, permitiendo a los usuarios transmitir conjuntos de datos a gran escala completamente trazados por rayos NVIDIA RTX a Apple Vision Pro.
En resumen, la introducción de USD a través de Nvidia NIM, para comprender mejor el mundo físico y construir mundos virtuales a través de grandes modelos, es un activo digital muy valioso. Por ejemplo, en 2019, la catedral de Notre Dame en París sufrió un grave incendio, con gran parte de la iglesia destruida. Afortunadamente, los diseñadores de juegos de Ubisoft habían visitado este edificio innumerables veces, estudiando su estructura, y completaron el trabajo de restauración digital de Notre Dame, recreando todos los detalles de Notre Dame en el juego AAA "Assassin's Creed: Unity", lo que también fue de gran ayuda para la restauración de Notre Dame. En ese momento, los diseñadores e historiadores tardaron dos años en replicarlo, pero con el lanzamiento de esta tecnología, podremos acelerar enormemente la recreación de copias digitales en el futuro, utilizando IA para comprender y replicar el mundo físico de manera más detallada.
Otro ejemplo es que los diseñadores construyen escenas 3D básicas en Omniverse y utilizan estas escenas para ajustar la IA generativa, logrando un proceso de creación de contenido controlable y colaborativo. Por ejemplo, WPP y Coca-Cola Company fueron los primeros en adoptar este flujo de trabajo para expandir su campaña publicitaria global.
NVIDIA también anunció que pronto lanzará varios nuevos microservicios NIM, incluyendo USD Layout, USD Smart Material y FDB Mesh Generation, para mejorar aún más las capacidades y la eficiencia de los desarrolladores en la plataforma OpenUSD.
NVIDIA Research presentó más de 20 artículos en la conferencia, compartiendo resultados innovadores que impulsan el desarrollo de generadores de datos sintéticos y herramientas de renderizado inverso, dos de los cuales ganaron el premio al mejor artículo técnico. La investigación mostrada este año demuestra que ### la IA mejora las capacidades de simulación al mejorar la calidad de imagen y desbloquear nuevas formas de representación 3D; al mismo tiempo, los generadores de datos sintéticos mejorados y más contenido también mejoran el nivel de la IA. Estas investigaciones muestran los últimos avances e innovaciones de NVIDIA en los campos de IA y simulación.
NVIDIA afirma que los diseñadores y artistas ahora tienen nuevas formas mejoradas de aumentar la productividad utilizando IA generativa entrenada con datos con licencia. Por ejemplo, Shutterstock (proveedor de imágenes estadounidense) lanzó una versión beta comercial de su servicio 3D generativo. Permite a los creadores prototipar rápidamente activos 3D y generar fondos HDRi de 360 grados para iluminar escenas usando solo indicaciones de texto o imagen; y Getty Images (empresa de comercio de imágenes estadounidense) aceleró su servicio de IA generativa, duplicando la velocidad de generación de imágenes y mejorando la calidad de salida. Estos servicios se basan en la arquitectura de IA generativa multimodal Nvidia Edify, que duplica la velocidad con nuevos modelos, mejora la calidad de imagen y la precisión de las indicaciones, y permite a los usuarios controlar la configuración de la cámara, como la profundidad de campo o la distancia focal. Los usuarios pueden generar cuatro imágenes en aproximadamente seis segundos y ampliarlas a resolución 4K.
Conclusión
En las diversas ocasiones en las que aparece Jensen Huang, siempre viste una chaqueta de cuero, describiendo al mundo el emocionante futuro que trae la IA.
También hemos experimentado el crecimiento de NVIDIA, presenciando cómo NVIDIA avanza paso a paso desde un gigante de las GPU para juegos hasta un líder en chips de IA, y luego a un diseño de pila completa de hardware y software de IA, NVIDIA es ambiciosa y está iterando rápidamente en la vanguardia de la ola tecnológica de IA.
Desde las GPU de sombreado programables, la computación acelerada CUDA, hasta el lanzamiento de Nvidia Omniverse y los microservicios NIM de IA generativa, y el impulso del desarrollo de tecnologías de modelado 3D, simulación robótica y gemelos digitales, también significa la llegada de una nueva ronda de innovación en la industria de la IA.
Sin embargo, a medida que las grandes empresas tienen más recursos, incluidos fondos, tecnología y mano de obra, pueden adoptar e implementar tecnologías avanzadas como Nvidia NIM más rápidamente. Y las pequeñas y medianas empresas pueden tener dificultades para mantenerse al día con el ritmo del desarrollo tecnológico debido a recursos limitados. Además de las diferentes habilidades técnicas del talento, ¿esto llevará a una mayor desigualdad tecnológica en el futuro?
La IA ideal para los humanos es ayudar a liberar las manos y la mano de obra humana, trayendo un mundo de mayor productividad para los humanos. Pero cuando la productividad y los medios de producción están en manos de unos pocos, ¿provocará una crisis más profunda? Estas son todas preguntas que necesitamos considerar.