Nvidia NIM升級:既是福音,也是挑戰
英偉達宣布,Nvidia NIM實現了進一步優化,並標準化了AI模型的複雜部署。NIM是英偉達在AI佈局中的關鍵一環。黃仁勳多次對NIM帶來的創新讚賞有佳,稱其是"### AI-in-a-Box, 本質上它就是盒子裡的人工智能。"
這次升級無疑鞏固了英偉達在AI領域的領導地位,成為其技術護城河的重要組成部分。
一直以來,CUDA被認為是英偉達在GPU領域建立領導地位的關鍵因素。藉助CUDA的支持,GPU從單一的圖形處理器發展成為通用的並行計算設備,使得AI開發成為可能。不過,儘管英偉達的軟件生態系統非常豐富,但對於缺乏AI基礎開發能力的傳統行業來說,這些分散的系統仍然過於複雜和難以掌握。
為了解決這一問題,在今年3月,英偉達在GTC大會上推出了NIM(Nvidia Inference Microservices)雲原生微服務,將過去幾年開發的所有軟件集成在一起,以簡化和加速AI應用的部署。NIM可將模型作為優化的"容器",這些容器可部署在雲端、數據中心或工作站上,讓開發人員能夠在幾分鐘內完成工作,比如輕鬆為副駕駛、聊天機器人等構建生成式AI應用程序。
到現在,Nvidia佈局的NIM生態系統已經可提供一系列預訓練的AI模型。英偉達宣布,幫助開發者在多個領域加速應用開發和部署,並且重點在不同的領域(如理解、數字人、三維開發、機器人技術和數字生物學)中提供的具體AI模型:
理解方向,NIM可使用Llama 3.1和NeMo Retriever,提升文本數據的處理能力;數字人方向,提供了Parakeet ASR和FastPitch HiFiGAN等模型,支持高保真語音合成和自動語音識別,為構建虛擬助手和數字人類提供了強大的工具;
在三維開發方面,USD Code和USD Search等模型簡化三維場景的創建和操作,幫助開發者更高效地構建數字孿生和虛擬世界;
在機器人具身方向,英偉達推出了MimicGen和Robocasa模型,通過生成合成運動數據和模擬環境,加速了機器人技術的研發和應用。MimicGen NIM 可根據 Apple Vision Pro 等空間計算設備記錄的遠程操作數據,生成合成運動數據。Robocasa NIM 可在 OpenUSD (一個用於在 3D 世界中進行開發和協作的通用框架)中生成機器人任務和仿真就緒環境。
數字生物學領域的DiffDock和ESMFold等模型,則在藥物發現和蛋白質摺疊預測方面提供了先進的解決方案,推動了生物醫學研究的進展等等。
此外,Nvidia宣布Hugging Face推理即服務平台也由Nvidia NIM提供支持,在雲端運行。
通過整合這些多功能模型,Nvidia的這種生態系統不僅提升了AI開發的效率,還提供了創新的工具和解決方案。不過,儘管Nvidia NIM的諸多升級對於行業確實是一大"福音"。但從另一面來看,也給程序員們帶來了很多挑戰。
Nvidia NIM通過提供預訓練的AI模型和標準化的API,大大簡化了AI模型的開發和部署過程,這對於開發者來說確實是一大福音,但是否也意味著普通程序員的就業機會未來或將進一步收縮?畢竟,企業可以用更少的技術人員完成同樣的工作,因為這些任務已經由NIM預先完成,普通程序員可能不再需要進行複雜的模型訓練和調優工作。
教AI用3D思維進行思考,構建虛擬物理世界
英偉達在SIGGRAPH大會上也展示了生成性AI在開放USD和Omniverse平台上的應用。
英偉達宣布,構建了世界上首個能夠理解基於 OpenUSD(Universal Scene Description 通用場景描述)語言、幾何、材料、物理和空間的生成性AI模型,並將這些模型打包為Nvidia NIM微服務。目前,在Nvidia API目錄中有三個NIM可供預覽:USD Code,用於回答開放USD的知識問題並生成開放USD Python代碼;USD Search,允許開發者使用自然語言或圖像輸入搜索龐大的開放USD 3D和圖像數據庫;USD Validate,可檢查上傳文件與開放USD發布版本的兼容性,並使用Omniverse雲API生成完全RTX渲染的路徑追蹤圖像。
英偉達表示,隨著Nvidia NIM微服務對OpenUSD的增強和可訪問性,未來各行各業都可以構建基於物理的虛擬世界和數字孿生。通過基於開放USD的新的生成性AI和Nvidia加速開發框架,這些框架構建於Nvidia Omniverse平台之上,更多行業現在可以開發用於可視化工業設計和工程項目的應用程序,以及用於模擬環境以構建下一波物理AI和機器人。此外,新的USD連接器將機器人和工業模擬數據格式以及開發者工具連接起來,使用戶能夠將大規模、完全由Nvidia RTX光線追蹤的數據集流式傳輸到Apple Vision Pro。
簡而言之,通過Nvidia NIM引入USD,通過大模型更好的理解物理世界和構建虛擬世界,這是一筆非常寶貴的數字資產。舉個例子,在2019年,法國巴黎聖母院遭遇嚴重火災,教堂大面積被毀。慶幸的是,育碧遊戲設計師曾無數次造訪這座建築物,學習它的結構,完成了對巴黎聖母院的數字復原工作,在3A遊戲《刺客信條:大革命》,重現了巴黎聖母院的所有細節,也給巴黎聖母院的修復帶來很大的幫助。當時設計師和歷史學家用了兩年的時間來復刻,但隨著該技術的推出,未來針對數字副本的重現我們可以大規模的提速,通過AI來更精細化的理解和復刻物理世界。
再比如,設計師在Omniverse中構建基礎三維場景,並利用這些場景調節生成性AI,實現可控和協作的內容創作過程。比如WPP與可口可樂公司率先採用這一工作流程,來擴大其全球廣告活動。
Nvidia還宣布即將推出幾種新的NIM微服務,包括USD Layout、USD Smart Material和FDB Mesh Generation,以進一步提升開發者在開放USD平台上的應用能力和效率。
這次NVIDIA Research攜20多篇論文參會,分享涉及推動合成數據生成器和逆渲染工具發展的創新成果,其中兩篇獲得了技術最佳論文獎。今年展示的研究表明,### AI通過提升圖像質量和解鎖新的3D表示方式,使模擬能力變得更好;同時,改進的合成數據生成器和更多內容也提高了AI的水平。這些研究展示了Nvidia在AI和模擬領域的最新進展和創新。
英偉達表示,設計師和藝術家現在有了新的改進方式,通過使用基於許可數據訓練的生成性AI來提高生產力。比如Shutterstock(美國圖片供應商),推出了其生成性3D服務的商業測試版。它僅需使用文本或圖像提示,使創作者能夠快速原型化3D資產,並生成360 HDRi背景以照亮場景;以及Getty Images(美國圖片交易公司)加速了其生成性AI服務,使圖像生成速度加倍,提高輸出質量。這些服務基於多模態生成性AI架構Nvidia Edify,通過新模型速度加倍,提升了圖像質量和提示準確性,讓用戶能夠控制相機設置,如景深或焦距。用戶可以在大約六秒鐘內生成四張圖像,並將它們放大到4K分辨率。
結語
在黃仁勳出現的各大場合中,他總是穿著一襲皮衣,向世界描繪AI所帶來的激動人心的未來。
我們也經歷著英偉達的成長,目睹英偉達一步步從遊戲GPU巨頭到AI芯片霸主、再到縱橫AI軟硬件全棧式佈局,英偉達的野心十足,在AI的技術浪潮最前沿快速迭代。
從可編程著色GPU、CUDA加速計算,到Nvidia Omniverse和生成式AI NIM微服務的推出,再到推動3D建模、機器人模擬和數字孿生技術的發展,也意味著新一輪AI產業的革新來臨。
不過,隨著大公司擁有更多的資源,包括資金、技術和人力,能夠更快地採用和實施Nvidia NIM等先進技術。而中小企業由於資源有限,可能難以跟上技術發展的步伐。再加上人才技術水平的不同,未來是否會導致更多的技術不平等加劇?
人類之理想中的AI,是幫助人類解放雙手和勞動力,帶給人類更高生產力的世界。但是當生產力和生產資料被少部分人掌握的時候,會不會引發帶來更深層次的一場危機?這都是我們需要思考的問題。