Nvidia NIM-Upgrade: Sowohl ein Segen als auch eine Herausforderung
Nvidia hat angekündigt, dass Nvidia NIM weiter optimiert wurde und die komplexe Bereitstellung von KI-Modellen standardisiert hat. NIM ist ein Schlüsselelement in Nvidias KI-Strategie. Jensen Huang hat NIM mehrfach für seine Innovationen gelobt und es als "### KI in einer Box, im Wesentlichen ist es künstliche Intelligenz in einer Box" bezeichnet.
Dieses Upgrade festigt zweifellos Nvidias führende Position im KI-Bereich und wird zu einem wichtigen Bestandteil seines technologischen Schutzwalls.
CUDA wurde lange Zeit als Schlüsselfaktor für Nvidias Führungsposition im GPU-Bereich angesehen. Mit Unterstützung von CUDA entwickelten sich GPUs von reinen Grafikprozessoren zu universellen parallelen Rechengeräten, die KI-Entwicklung ermöglichten. Obwohl Nvidias Software-Ökosystem sehr umfangreich ist, sind diese verteilten Systeme für traditionelle Branchen ohne KI-Entwicklungsfähigkeiten immer noch zu komplex und schwer zu beherrschen.
Um dieses Problem zu lösen, führte Nvidia im März auf der GTC-Konferenz NIM (Nvidia Inference Microservices) ein, eine Cloud-native Microservice-Lösung, die alle in den letzten Jahren entwickelten Softwarekomponenten integriert, um die Bereitstellung von KI-Anwendungen zu vereinfachen und zu beschleunigen. NIM kann Modelle als optimierte "Container" bereitstellen, die in der Cloud, in Rechenzentren oder auf Workstations eingesetzt werden können, sodass Entwickler ihre Arbeit in wenigen Minuten erledigen können, wie zum Beispiel die einfache Erstellung generativer KI-Anwendungen für Copiloten, Chatbots und mehr.
Bis jetzt kann das von Nvidia aufgebaute NIM-Ökosystem eine Reihe von vortrainierten KI-Modellen anbieten. Nvidia hat angekündigt, Entwicklern bei der Beschleunigung der Anwendungsentwicklung und -bereitstellung in mehreren Bereichen zu helfen und spezifische KI-Modelle in verschiedenen Bereichen (wie Verständnis, digitale Menschen, 3D-Entwicklung, Robotik und digitale Biologie) bereitzustellen:
Im Bereich Verständnis kann NIM Llama 3.1 und NeMo Retriever verwenden, um die Verarbeitungsfähigkeit von Textdaten zu verbessern; im Bereich digitale Menschen bietet es Modelle wie Parakeet ASR und FastPitch HiFiGAN, die hochwertige Sprachsynthese und automatische Spracherkennung unterstützen und leistungsstarke Werkzeuge für die Erstellung virtueller Assistenten und digitaler Menschen bieten;
In der 3D-Entwicklung vereinfachen Modelle wie USD Code und USD Search die Erstellung und Manipulation von 3D-Szenen und helfen Entwicklern, digitale Zwillinge und virtuelle Welten effizienter zu erstellen;
Im Bereich der verkörperten Robotik hat Nvidia die Modelle MimicGen und Robocasa eingeführt, die durch die Generierung synthetischer Bewegungsdaten und simulierter Umgebungen die Forschung und Anwendung von Robotertechnologie beschleunigen. MimicGen NIM kann synthetische Bewegungsdaten basierend auf Fernbedienungsdaten generieren, die von räumlichen Rechengeräten wie Apple Vision Pro aufgezeichnet wurden. Robocasa NIM kann Roboteraufgaben und simulationsbereite Umgebungen in OpenUSD (einem universellen Framework für Entwicklung und Zusammenarbeit in 3D-Welten) generieren.
Modelle wie DiffDock und ESMFold im Bereich der digitalen Biologie bieten fortschrittliche Lösungen für die Arzneimittelentdeckung und Proteinstrukturvorhersage und treiben den Fortschritt in der biomedizinischen Forschung voran.
Darüber hinaus hat Nvidia angekündigt, dass die Inferenz-as-a-Service-Plattform von Hugging Face auch von Nvidia NIM unterstützt wird und in der Cloud läuft.
Durch die Integration dieser vielseitigen Modelle verbessert Nvidias Ökosystem nicht nur die Effizienz der KI-Entwicklung, sondern bietet auch innovative Werkzeuge und Lösungen. Obwohl die vielen Upgrades von Nvidia NIM für die Branche tatsächlich ein großer "Segen" sind, bringen sie aus einer anderen Perspektive auch viele Herausforderungen für Programmierer mit sich.
Nvidia NIM vereinfacht den Prozess der KI-Modellentwicklung und -bereitstellung durch die Bereitstellung vortrainierter KI-Modelle und standardisierter APIs erheblich, was für Entwickler sicherlich ein großer Segen ist. Bedeutet dies jedoch auch, dass sich die Beschäftigungsmöglichkeiten für gewöhnliche Programmierer in Zukunft weiter verringern könnten? Schließlich können Unternehmen die gleiche Arbeit mit weniger technischem Personal erledigen, da diese Aufgaben bereits von NIM vorausgeführt wurden, und gewöhnliche Programmierer möglicherweise nicht mehr komplexe Modelltrainings- und Optimierungsarbeiten durchführen müssen.
KI beibringen, in 3D zu denken und virtuelle physische Welten zu bauen
Nvidia präsentierte auf der SIGGRAPH-Konferenz auch die Anwendung generativer KI auf den offenen USD- und Omniverse-Plattformen.
Nvidia gab bekannt, dass es die weltweit ersten generativen KI-Modelle entwickelt hat, die die Sprache, Geometrie, Materialien, Physik und den Raum von OpenUSD (Universal Scene Description) verstehen können, und diese Modelle als Nvidia NIM-Microservices verpackt hat. Derzeit sind in Nvidias API-Katalog drei NIMs zur Vorschau verfügbar: USD Code zum Beantworten von Wissensfragen zu OpenUSD und Generieren von OpenUSD Python-Code; USD Search, das Entwicklern ermöglicht, mit natürlicher Sprache oder Bildeingabe in einer umfangreichen OpenUSD 3D- und Bilddatenbank zu suchen; und USD Validate, das die Kompatibilität hochgeladener Dateien mit OpenUSD-Versionen überprüft und vollständig RTX-gerenderte Pfadverfolgungsbilder mit der Omniverse Cloud API generiert.
Nvidia erklärt, dass mit der Verbesserung und Zugänglichkeit von OpenUSD durch Nvidia NIM-Microservices in Zukunft alle Branchen physikbasierte virtuelle Welten und digitale Zwillinge erstellen können. Durch neue generative KI und Nvidia-beschleunigte Entwicklungsframeworks, die auf OpenUSD basieren und auf der Nvidia Omniverse-Plattform aufbauen, können mehr Branchen jetzt Anwendungen zur Visualisierung von Industriedesign und Ingenieurprojekten sowie zur Simulation von Umgebungen für die nächste Welle physischer KI und Robotik entwickeln. Darüber hinaus verbinden neue USD-Konnektoren Roboter- und Industriesimulationsdatenformate sowie Entwicklertools, sodass Benutzer große, vollständig von Nvidia RTX-Raytracing gerenderte Datensätze auf Apple Vision Pro streamen können.
Kurz gesagt, durch die Einführung von USD über Nvidia NIM und das bessere Verständnis der physischen Welt und den Aufbau virtueller Welten durch große Modelle ist dies ein sehr wertvoller digitaler Vermögenswert. Ein Beispiel: 2019 erlitt die Kathedrale Notre-Dame in Paris einen schweren Brand, bei dem die Kirche großflächig zerstört wurde. Glücklicherweise hatten Ubisoft-Spieledesigner das Gebäude unzählige Male besucht, seine Struktur studiert und eine digitale Rekonstruktion von Notre-Dame abgeschlossen. In dem AAA-Spiel "Assassin's Creed: Unity" wurden alle Details von Notre-Dame nachgebildet, was auch bei der Restaurierung von Notre-Dame sehr hilfreich war. Damals brauchten Designer und Historiker zwei Jahre für die Nachbildung, aber mit der Einführung dieser Technologie können wir die Reproduktion digitaler Kopien in Zukunft massiv beschleunigen und die physische Welt durch KI detaillierter verstehen und nachbilden.
Ein weiteres Beispiel: Designer erstellen grundlegende 3D-Szenen in Omniverse und nutzen diese Szenen, um generative KI für einen kontrollierten und kollaborativen Inhaltserstellungsprozess anzupassen. Zum Beispiel haben WPP und Coca-Cola Company diesen Workflow als Erste übernommen, um ihre globale Werbekampagne zu erweitern.
Nvidia kündigte auch an, dass in Kürze mehrere neue NIM-Microservices eingeführt werden, darunter USD Layout, USD Smart Material und FDB Mesh Generation, um die Anwendungsfähigkeiten und Effizienz von Entwicklern auf der OpenUSD-Plattform weiter zu verbessern.
NVIDIA Research präsentierte auf dieser Konferenz mehr als 20 Forschungsarbeiten und teilte innovative Ergebnisse zur Förderung der Entwicklung von synthetischen Datengeneratoren und inversen Rendering-Tools, von denen zwei mit dem Best Technical Paper Award ausgezeichnet wurden. Die in diesem Jahr vorgestellten Forschungsergebnisse zeigen, dass ### KI die Simulationsfähigkeiten durch Verbesserung der Bildqualität und Erschließung neuer 3D-Darstellungsmethoden verbessert; gleichzeitig verbessern verbesserte synthetische Datengeneratoren und mehr Inhalte das Niveau der KI. Diese Forschungen zeigen die neuesten Fortschritte und Innovationen von Nvidia in den Bereichen KI und Simulation.
Nvidia erklärt, dass Designer und Künstler jetzt neue verbesserte Möglichkeiten haben, ihre Produktivität durch den Einsatz generativer KI zu steigern, die auf lizenzierten Daten trainiert wurde. Zum Beispiel hat Shutterstock (ein US-amerikanischer Bildanbieter) eine kommerzielle Betaversion seines generativen 3D-Dienstes eingeführt. Mit nur Text- oder Bildaufforderungen können Schöpfer schnell 3D-Assets prototypisieren und 360-HDRi-Hintergründe zur Beleuchtung von Szenen generieren; und Getty Images (ein US-amerikanisches Bildhandelsunternehmen) hat seinen generativen KI-Dienst beschleunigt, wodurch die Geschwindigkeit der Bilderzeugung verdoppelt und die Ausgabequalität verbessert wurde. Diese Dienste basieren auf der multimodalen generativen KI-Architektur Nvidia Edify, die durch neue Modelle die Geschwindigkeit verdoppelt, die Bildqualität und Promptgenauigkeit verbessert und es Benutzern ermöglicht, Kameraeinstellungen wie Schärfentiefe oder Brennweite zu steuern. Benutzer können in etwa sechs Sekunden vier Bilder generieren und sie auf 4K-Auflösung vergrößern.
Schlusswort
Bei allen großen Auftritten von Jensen Huang trägt er stets eine Lederjacke und beschreibt der Welt die aufregende Zukunft, die KI bringen wird.
Wir erleben auch Nvidias Wachstum und beobachten, wie Nvidia Schritt für Schritt vom Gaming-GPU-Giganten zum KI-Chip-Marktführer und dann zum umfassenden KI-Hardware- und Software-Stack-Layout wird. Nvidia ist sehr ehrgeizig und entwickelt sich schnell an der vordersten Front der KI-Technologiewelle.
Von programmierbaren Shader-GPUs, CUDA-beschleunigtem Computing bis zur Einführung von Nvidia Omniverse und generativen KI-NIM-Microservices sowie zur Förderung der Entwicklung von 3D-Modellierung, Robotersimulation und Digital-Twin-Technologie bedeutet dies auch den Beginn einer neuen Runde der KI-Industrieinnovation.
Mit mehr Ressourcen, einschließlich Finanzen, Technologie und Arbeitskräften, können große Unternehmen jedoch fortschrittliche Technologien wie Nvidia NIM schneller einführen und implementieren. Kleine und mittlere Unternehmen könnten aufgrund begrenzter Ressourcen Schwierigkeiten haben, mit dem technologischen Fortschritt Schritt zu halten. Zusammen mit den unterschiedlichen Qualifikationsniveaus der Talente, könnte dies in Zukunft zu einer Verschärfung der technologischen Ungleichheit führen?
Die ideale KI für die Menschheit soll den Menschen helfen, ihre Hände und Arbeitskraft zu befreien und eine Welt mit höherer Produktivität zu schaffen. Aber wenn Produktivkräfte und Produktionsmittel von wenigen kontrolliert werden, könnte dies dann nicht zu einer tieferen Krise führen? Das sind alles Fragen, über die wir nachdenken müssen.