NVIDIA NIMのアップグレード:恩恵であり、課題でもある
NVIDIAは、Nvidia NIMがさらに最適化され、AIモデルの複雑な展開が標準化されたと発表しました。NIMはNVIDIAのAI戦略における重要な要素です。ジェンスン・フアンCEOは、NIMがもたらすイノベーションを高く評価し、「### AI-in-a-Box、本質的にはボックスの中の人工知能」と称しています。
このアップグレードは、間違いなくNVIDIAのAI分野におけるリーダーシップを強化し、同社の技術的優位性の重要な構成要素となっています。
これまで、CUDAはNVIDIAがGPU分野でリーダーシップを確立する上で重要な要因と考えられてきました。CUDAのサポートにより、GPUは単なるグラフィックス処理装置から汎用の並列計算デバイスへと進化し、AI開発を可能にしました。しかし、NVIDIAのソフトウェアエコシステムは非常に豊富ですが、AIの基本的な開発能力を持たない従来の産業にとっては、これらの分散システムはまだ複雑で習得が困難です。
この問題を解決するため、NVIDIAは今年3月のGTCカンファレンスで、NIM(Nvidia Inference Microservices)クラウドネイティブマイクロサービスを発表しました。これは過去数年間に開発されたすべてのソフトウェアを統合し、AIアプリケーションの展開を簡素化・加速化するものです。NIMはモデルを最適化された「コンテナ」として扱い、これらのコンテナはクラウド、データセンター、またはワークステーションに展開できます。これにより、開発者は数分で作業を完了し、例えばコパイロットやチャットボットなどの生成AIアプリケーションを簡単に構築できるようになります。
現在、NVIDIAが展開するNIMエコシステムは、一連の事前トレーニングされたAIモデルを提供しています。NVIDIAは、開発者が複数の分野でアプリケーションの開発と展開を加速するのを支援し、特に異なる分野(理解、デジタルヒューマン、3D開発、ロボット工学、デジタル生物学など)で具体的なAIモデルを提供すると発表しました:
理解の分野では、NIMはLlama 3.1とNeMo Retrieverを使用してテキストデータの処理能力を向上させます。デジタルヒューマンの分野では、Parakeet ASRやFastPitch HiFiGANなどのモデルを提供し、高忠実度の音声合成と自動音声認識をサポートし、仮想アシスタントやデジタルヒューマンの構築に強力なツールを提供します。
3D開発の分野では、USD CodeやUSD Searchなどのモデルが3Dシーンの作成と操作を簡素化し、開発者がデジタルツインや仮想世界をより効率的に構築するのを支援します。
ロボットの具現化の分野では、NVIDIAはMimicGenとRobocasaモデルを発表しました。これらは合成モーションデータと模擬環境を生成することで、ロボット技術の研究開発と応用を加速します。MimicGen NIMは、Apple Vision Proなどの空間コンピューティングデバイスで記録されたリモート操作データに基づいて、合成モーションデータを生成できます。Robocasa NIMは、OpenUSD(3D世界での開発とコラボレーションのための汎用フレームワーク)内でロボットタスクとシミュレーション準備環境を生成できます。
デジタル生物学分野のDiffDockやESMFoldなどのモデルは、創薬やタンパク質折りたたみ予測において先進的なソリューションを提供し、生物医学研究の進展を推進しています。
さらに、NVIDIAはHugging Face推論サービスプラットフォームもNvidia NIMによってサポートされ、クラウド上で実行されると発表しました。
これらの多機能モデルを統合することで、NVIDIAのこのエコシステムはAI開発の効率を向上させるだけでなく、革新的なツールとソリューションを提供しています。しかし、Nvidia NIMの多くのアップグレードが業界にとって確かに「恩恵」である一方で、プログラマーにも多くの課題をもたらしています。
Nvidia NIMは事前トレーニングされたAIモデルと標準化されたAPIを提供することで、AIモデルの開発と展開プロセスを大幅に簡素化しました。これは開発者にとって確かに大きな恩恵ですが、一般のプログラマーの雇用機会が将来さらに縮小する可能性を意味するのでしょうか?結局のところ、企業はより少ない技術者で同じ作業を完了できるようになります。これらのタスクはすでにNIMによって事前に完了されているため、一般のプログラマーは複雑なモデルのトレーニングとチューニング作業を行う必要がなくなる可能性があります。
AIに3D思考で考えさせ、仮想物理世界を構築する
NVIDIAはSIGGRAPHカンファレンスでも、オープンUSDとOmniverseプラットフォーム上での生成AIの応用を展示しました。
NVIDIAは、OpenUSD(Universal Scene Description)言語、ジオメトリ、マテリアル、物理、空間を理解できる世界初の生成AIモデルを構築し、これらのモデルをNvidia NIMマイクロサービスとしてパッケージ化したと発表しました。現在、NVIDIA APIカタログには3つのNIMがプレビュー可能です:USD Code(OpenUSDに関する知識の質問に答え、OpenUSD Pythonコードを生成するため)、USD Search(開発者が自然言語や画像入力を使用して膨大なOpenUSD 3Dおよび画像データベースを検索できるようにする)、USD Validate(アップロードされたファイルとOpenUSDリリースバージョンの互換性をチェックし、Omniverse Cloud APIを使用して完全なRTXレンダリングされたパストレース画像を生成する)。
NVIDIAは、Nvidia NIMマイクロサービスによるOpenUSDの強化とアクセシビリティの向上により、将来的にはあらゆる業界が物理ベースの仮想世界とデジタルツインを構築できるようになると述べています。OpenUSDに基づく新しい生成AIとNVIDIA加速開発フレームワーク(NVIDIA Omniverseプラットフォーム上に構築)により、より多くの業界が産業設計やエンジニアリングプロジェクトの可視化のためのアプリケーション、および次世代の物理AIとロボットを構築するための環境シミュレーションのためのアプリケーションを開発できるようになりました。さらに、新しいUSDコネクタはロボットと産業シミュレーションデータフォーマット、および開発者ツールを接続し、ユーザーが大規模で完全にNVIDIA RTXレイトレーシングされたデータセットをApple Vision Proにストリーミングできるようにします。
簡単に言えば、Nvidia NIMを通じてUSDを導入し、大規模モデルを通じて物理世界をより良く理解し、仮想世界を構築することは、非常に貴重なデジタル資産です。例えば、2019年にフランスのノートルダム大聖堂で深刻な火災が発生し、教会の大部分が破壊されました。幸いなことに、Ubisoftのゲームデザイナーがこの建物を何度も訪れ、その構造を学び、ノートルダム大聖堂のデジタル復元作業を完了していました。3Aゲーム「アサシン クリード:ユニティ」では、ノートルダム大聖堂のすべての細部を再現し、ノートルダム大聖堂の修復にも大きな助けとなりました。当時、デザイナーと歴史家は2年かけて再現しましたが、この技術の導入により、将来的にはデジタルコピーの再現を大幅に加速できます。AIを使用して物理世界をより細かく理解し、再現することができます。
もう一つの例として、デザイナーがOmniverse内で基本的な3Dシーンを構築し、これらのシーンを使用して生成AIを調整し、制御可能で協調的なコンテンツ作成プロセスを実現することができます。例えば、WPPとコカ・コーラ社はこのワークフローを最初に採用し、グローバル広告キャンペーンを拡大しています。
NVIDIAはまた、USD Layout、USD Smart Material、FDB Mesh Generationなど、いくつかの新しいNIMマイクロサービスを近日中に発表する予定で、開発者のOpenUSDプラットフォーム上でのアプリケーション能力と効率をさらに向上させます。
今回、NVIDIA Researchは20以上の論文を発表し、合成データジェネレーターと逆レンダリングツールの発展を推進する革新的な成果を共有しました。そのうち2つが技術最優秀論文賞を受賞しています。今年発表された研究は、### AIが画像品質を向上させ、新しい3D表現方法を解放することで、シミュレーション能力を向上させたことを示しています。同時に、改良された合成データジェネレーターとより多くのコンテンツがAIのレベルを向上させました。これらの研究は、NVIDIAのAIとシミュレーション分野における最新の進歩と革新を示しています。
NVIDIAは、デザイナーやアーティストが、ライセンスデータで訓練された生成AIを使用して生産性を向上させる新しい改良された方法を持っていると述べています。例えば、Shutterstock(米国の画像供給業者)は、生成3Dサービスの商用ベータ版を開始しました。これはテキストや画像プロンプトのみを使用して、クリエイターが3Dアセットを迅速にプロトタイプ化し、シーンを照らす360 HDRi背景を生成できるようにします。また、Getty Images(米国の画像取引会社)は生成AIサービスを加速し、画像生成速度を2倍にし、出力品質を向上させました。これらのサービスは、マルチモーダル生成AIアーキテクチャであるNvidia Edifyに基づいており、新しいモデルにより速度が2倍になり、画像品質とプロンプトの正確性が向上し、ユーザーが被写界深度やフォーカス距離などのカメラ設定を制御できるようになりました。ユーザーは約6秒で4枚の画像を生成し、それらを4K解像度に拡大できます。
結論
ジェンスン・フアンが登場するさまざまな場面で、彼はいつも革ジャンを着て、AIがもたらす興奮に満ちた未来を世界に描いています。
私たちもNVIDIAの成長を経験し、NVIDIAがゲーミングGPUの巨人からAIチップの覇者へ、そしてAIソフトウェアとハードウェアの全スタック展開へと一歩一歩進化するのを目の当たりにしてきました。NVIDIAの野心は大きく、AIの技術的波の最前線で急速に進化しています。
プログラマブルシェーダーGPU、CUDA加速コンピューティングから、Nvidia OmniverseとジェネレーティブAI NIMマイクロサービスの導入、そして3Dモデリング、ロボットシミュレーション、デジタルツイン技術の発展の推進まで、これは新たなAI産業革命の到来を意味しています。
しかし、大企業がより多くのリソース(資金、技術、人材)を持ち、Nvidia NIMなどの先進技術をより迅速に採用・実装できるようになるにつれ、中小企業はリソースの制限により、技術の進歩についていくのが難しくなる可能性があります。さらに、人材の技術レベルの違いにより、将来的にはより多くの技術的不平等が加速する可能性はないでしょうか?
人類が理想とするAIは、人間の手と労働力を解放し、より高い生産性の世界をもたらすものです。しかし、生産力と生産手段が少数の人々に掌握されるとき、より深刻な危機をもたらす可能性はないでしょうか?これらは私たちが考える必要がある問題です。