音声から音声への推論機能。この機能はFigure 02で全面的にアップグレードされました。
Figure 02にはマイクとスピーカーが搭載され、OpenAIの力を借りて音声対話と推論を実現しました。
創業者のBrett Adcockが発表した技術記事では、Figure 02がどのようにChatGPTをロボットに変えたかのプロセスが紹介されています:
ユーザーが音声を入力すると、Figure 02はそれをテキストメッセージに変換し、同時に### 新たに追加された6つのRGBカメラにより、ロボットは超人的な視覚を持ち、画像情報を受け取ることができます。これら2種類の情報がChatGPTに処理されます。
AIが処理した情報は音声の形でユーザーにフィードバックされ、ロボットに応答行動を指示します。
フィードバックだけでは不十分で、実際の実行時には視覚モデルとの連携が必要です。そうでないと、ロボットが料理を作る際に鍋の中身を全て床にこぼしてしまうような失敗が起こります。Figure 02はこの点に多くの努力を費やしています。
Adcockによると、### Figure 02には視覚言語モデル(VLM)が内蔵されており、6つのカメラと連携して動作し、ロボットは意味的基礎と迅速な常識的視覚推論を行うことができます。
この機能は、BMWとの協力において存分に発揮されています。
今年1月、Figure AIはBMW Manufacturing Co., LLCと商業契約を締結し、自動車製造プロセスに汎用ロボットを導入することを発表しました。Figure 02のプロモーション動画でも、BMWの工場でFigure 02が視覚言語モデルを使用して部品組立などの精密作業を行う様子が多く紹介されています。
さらに、前世代と比較してAI推論能力が3倍向上しました。プロモーション動画では、Figure 02が正しく取り付けられていない部品を見つけて補正する様子も示されています。
これらに加えて、多くの人が最も関心を持っているのはロボットの「手」の改良です。
私たちの両手は簡単に数字の1から10まで数えることができます。しかし、このような単純な手振りでさえ、ロボットにとっては至難の業です。予告編が公開された時点で、多くの人の注目は第4世代の手に集まりました。
今回のFigure 02の### 第4世代の手には16の自由度が備わっています。
「16」という数字は、5本の指があり、各指に3つの関節があり、合計15の関節、さらに1つの手首関節を加えて、合計16の関節が自由に動くことを意味します。この技術は、人間の22自由度の手にまた一歩近づきました。
さらに、Figure 02の手は人間と同等の力を備えており、25kgの重量を支えることができ、より実用的なシーンに適しています。ネットユーザーが01と02の比較を公開しており、自由度の向上により、手の動きがより精密になっていることがわかります。
その他にもいくつかの更新があります。例えば、バッテリー容量が前世代より50%向上し、現在のFigure 02は1日20時間の作業が可能です。
配線も再設計され、電源と計算用の統合配線は現在、隠蔽式ワイヤーを使用しており、より密接なパッケージングと高い信頼性を実現しています。
ボディの外骨格構造を再設計し、構造の剛性と衝突荷重の防止のバランスを取りました。もちろん、これらの変更によりFigure 02の重量は70kgとなり、01より10kg重くなりました。
"地上最強"のロボット?
Figure 02の発表からわずか3時間で、50万人のネットユーザーの注目を集めました。
多くのユーザーが驚きを表明しています:"20年後に何が起こるか想像もできない!""2024年は間違いなくロボットの年だ!"
NVIDIAのシニアサイエンティストで具現化知能責任者のJim Fanも即座に称賛を送り、"第4世代の手の自由度の改善は絶対に正しい選択だ"と述べています。
Jim Fanと同様に、多くのユーザーが手の動きの滑らかさに驚嘆しています。
実際、第4世代の手の誕生は創業者Adcockの信念から生まれました。
"私たちが人型ロボットを選んだのは、現在の世界が人間の活動を中心に構築されており、すべての標準が人間の生理的条件に適合しているからです。"Adcockは以前のインタビューで、なぜ人型ロボットの開発にこだわるのかを説明しています。
すべてが「人間」に近づくことで、より良く人々に奉仕し、不必要な労働を省くことができるのです。
彼と多くのネットユーザーの考え方は同じです - "AIの役割は詩を書いたり絵を描いたりすることではなく、私の代わりに皿を洗ったり洗濯をしたりして、私が詩を書いたり絵を描いたりする時間を作ることです"。
AIの方向性を決めてから今日業界のリーダーになるまで、Adcockはわずか2年しかかかりませんでした。
このAI企業は2022年に設立されたばかりです。このような急速な発展はAdcockの先見の明によるものです。
Figure AIのために約7億ドルの資金を集める前、彼はソフトウェア会社と航空機会社を設立しており、前者の売却でAdcockは"最初の一桶金"を手に入れました。後者も既に上場に成功しています。
AI時代の到来とともに、Adcockは多くの人と同様に"All in AI"を決意しました。しかし、前2回の成功した起業経験があったため、Figure AIの設立プロセスは金の手を持っているかのようにスムーズでした。
間違いなく"シリコンバレーの新貴族"として、Figure AIの背後にはベゾス(アマゾン創業者)、OpenAI、NVIDIAなどの巨人たちの共同投資があり、現在のFigure AIの評価額は26億ドル(約1860億円)に達しています。
Figure AIもその期待に応え、その製品であるFigure 01は世界初の商業的に実現可能な自律型人型ロボットです。
18ヶ月の開発期間を経て、Figure 02が今日正式に発表されました。公式には"世界最先端のAIハードウェア"と呼ばれています。
しかし、称賛がある一方で、必ず疑問の声も上がります。
競合他社であるテスラのOptimusのデモ動画を投稿したネットユーザーもいて、これらの改良点はテスラが7ヶ月前に既に行っていたと指摘し、Figure 02がどのように"最先端"になったのかと疑問を呈しています。
"宿敵"Optimus
実際、テクノロジー界で最も注目される2つの具現化知能プロジェクトとして、Figure AIとテスラのOptimusの論争は常に存在していました。
1年前、Figure 01の予告が発表された時点で、ネットユーザーは冗談で"テスラのロボットはオプティマス・プライム(Optimus)と呼ばれているから、あなたのはメガトロンと呼ぶべきだ"と言っていました。
今回のFigure 02の発表でも、ネットユーザーは興味津々に"Figure 02とOptimus Gen 2の対決が待ちきれない!"と述べています。
さらに、Adcock自身のチームにはテスラ出身の従業員が多数います。
Adcockは疑問のコメントに特に返答していません。彼はOptimusとの競争を気にしていないようです。
Optimusの背後にはテスラという"大樹"があり、広範なデータ供給と豊富な研究資金を持っていますが、Figure AI自体も"衣食に困らない"と言えます。
潤沢な資金を持っているだけでなく、商業化の面でもFigure AIは"将来性がある"と言えます。BMWとの協力は現在第一段階にあり、Figureロボットは自動車生産の初期段階に適用される予定です。第一段階が完了した後、BMWはさらに深い協力を行い、人工知能、ロボット制御、製造の仮想化、ロボット統合などの先進技術テーマを共同で探求する予定です。
Optimusも現在テスラの工場で実際に使用されています。具現化知能の2つのリーディングプレイヤーは、それぞれの道を猛進しています。
"世界最先端のAIハードウェア"が誰なのかという問題にこだわる必要はありません。名称は消えませんが、移り変わります。急速に発展するAI業界では、次の技術のリーダーがすでに登場を待っているかもしれません。