空間大規模モデル：汎用ロボットの重要な推進力 - Coatueレポート分析

グローバルトップのヘッジファンドCoatueが最近、「具現化された知能」に関する重要な報告書を発表しました。タイトルは『The Path to General-Purpose Robots』です。

Coatueは、AIロボットが破壊的な力であり、人類史上最大の技術革新の波の一つになる可能性があると考えており、高い注目に値すると述べています。

この報告書には多くのハイライトがあり、現段階のAIロボットが直面する課題を詳細に分析するだけでなく、業界の発展に関する合理的な展望も示し、投資の観点から専門的な意見を提供しています。テクノロジー投資家、AI従事者、ロボットに興味がある方など、誰にとっても読む価値のある内容です。

以下、この大規模な報告書について解説します。報告書のリンクは文末に記載していますので、興味のある方はぜひ原文をご覧ください。

（1）理想は豊かだが、現実は厳しい

ロボット産業は、デモと現実のギャップが最も大きい産業の一つかもしれません。

1961年、最初の産業用ロボットがGMで誕生し、自動車生産ラインで使用されました。

50年以上の発展を経て、ロボットの形態はますます多様化し、機能や用途も豊富になり、掃除ロボット、四足ロボット、人型ロボットなどが登場しています。

歴史を振り返ると、ロボットの普及率は実際には線形的に向上しています。

産業用ロボットを例にとると、製造業従業員1万人あたりのロボット数は2013年の53台から2022年の151台に増加し、CAGRは12％に達しています。

ロボット産業全体の発展は安定して良好ですが、個別企業の業績は必ずしも期待通りではありません。

ロボット企業は一般的に商業化の困難に直面しており、初期の資本支出が巨額であることも相まって、22-23年には多くのロボット企業が破産・倒産しました。

（2）空間知能が汎用ロボットを可能にする

前世代のロボットは、特定の単一タスクを実行するものが多く、例えば掃除ロボットは掃除のみ、農業用ドローンは農地の灌漑のみ、産業用ロボットは機械溶接のみを担当していました。

しかし、AIの汎用知能の出現に伴い、次世代のロボットは「汎用ロボット」となり、様々なタスクや環境に対応できる可能性があります。

大規模言語モデルが言語推論を現実のものにしたように、空間大規模モデルは第4の壁を打ち破り、AIが物理世界を真に理解し、それと相互作用することを可能にする可能性があります。

（3）ロボットが直面する核心的課題：トレーニングデータの不足

人間にとって非常に簡単なタスクでも、ロボットにとっては必ずしも容易ではありません。

Coatueは3つの具体的な例を挙げています。

器用さ：

空間認識能力：

バランス回復能力：

これらの問題を克服するためには、膨大なデータでトレーニングを行い、ロボットをより知的にする必要があります。

しかし、ロボットは非常に新しい分野であり、トレーニングデータの蓄積が深刻に不足しています。

異なるモダリティの最大データセットを比較すると、テキストモダリティは約15Tトークン、画像モダリティは6B画像-テキストペアデータ、ビデオモダリティは2.6B視聴覚特徴データがあります。

しかし、ロボットモダリティには240万のデータセグメントしかなく、他のモダリティと比較してデータの蓄積が圧倒的に不足しています。

（4）ロボットトレーニングデータの4つの収集方法

データがロボット開発の核心的なボトルネックであるならば、ロボットトレーニングデータを迅速に蓄積する方法は何でしょうか？

近年、この分野の研究が次々と登場し、徐々に4つの流派が形成されています。

ロボットデータ収集方法1：遠隔操作（Teleoperation）

文字通り、実験者が機械ハンドルを操作し、ロボットを遠隔制御して同じ動作を行わせ、それによってデータを蓄積します。

ロボットデータ収集方法2：AR

「Explainable Human-Robot Training and Cooperation with Augmented Reality」という研究では、研究者たちはAR（拡張現実）技術を使用して、人間とロボットの相互作用プロセスにより強い説明可能性を持たせ、それによってデータを蓄積しています。

ロボットデータ収集方法3：シミュレーション

膨大な計算能力を使用してシミュレーション計算を行い、大量のロボットトレーニングデータセットを生成します。

シミュレーションは現在、データ生成を大規模に行う可能性が最も高い方法かもしれません。背後には巨大な計算能力のサポートが必要です。

現在、NvidiaのJim Fanチームがこの技術路線を採用しています。

ロボットデータ収集方法4：ビデオ学習

マルチモーダル大規模モデルを通じて、ロボットに直接ビデオから人間の動作を学習させ、トレーニングデータを蓄積します。

（5）ロボットコストと人間の賃金のゴールデンクロス

GPUコストの低下に伴い、大規模モデルのトレーニングコストが大幅に減少しています。

過去1年間で、AzureクラウドプラットフォームのA100 GPUのリース価格は6ドル/時間から1.5ドル/時間に下がり、75％の減少率を示しています。

空間大規模モデル：汎用ロボットの重要な推進力 - Coatueレポート分析

AIの実体化傾向が台頭し、知能ロボットが新時代を迎えています。