方法紹介
このエージェントは、低レベルのスキルライブラリと高レベルのコントローラーで構成されています。低レベルのスキルライブラリは、フォアハンドトップスピン、バックハンド狙い、フォアハンドサーブなど、卓球の特定の側面に焦点を当てています。トレーニング戦略に加えて、この研究ではオフラインとオンラインで各低レベルスキルの長所、短所、制限に関する情報を収集し保存しています。低レベルスキルを調整する高レベルコントローラーは、現在のゲーム統計とスキル説明に基づいて最適なスキルを選択します。
さらに、この研究では、初期タスク条件のシードとして、人間対人間の試合データを少量収集しました。データセットには位置、速度、回転の情報が含まれています。その後、シミュレーション環境で強化学習を使用してエージェントをトレーニングし、既存の技術を採用して、ポリシーをシームレスに実際のハードウェアに展開しました。
エージェントは人間と対戦してさらにトレーニングデータを生成し、ロボットが継続的に学習するにつれて、ゲーム基準はますます複雑になり、エージェントがより複雑な動きを学習できるようになります。この「シミュレーション-現実」のハイブリッドループは、時間の経過とともにロボットのスキルが継続的に向上する自動教育システムを作成します。
階層制御
階層制御は主に以下の部分を含みます:
- 卓球の打法:高レベルコントローラー(HLC)がまずどの打法(フォアハンドまたはバックハンド)を使用するかを決定します。
- 調整:対戦相手との試合の統計データに基づいて、各HLCの選好(H値)をオンラインで維持します。
- 最も効果的なスキルの選択:HLCは調整されたH値に基づいて候補となるLLCをサンプリングします。
- 更新:H値と対戦相手の統計データは試合終了まで継続的に更新されます。
結果
研究者は、このエージェントを29名の異なるレベルの卓球選手と比較しました。選手には初心者、中級者、上級者、上級+のスキルが含まれています。人間の選手は標準的な卓球ルールに従ってロボットと3試合を行いましたが、ロボットがサーブを打てないため、ルールは若干修正されました。
全ての対戦相手に対して、ロボットは45%の試合(マッチ)と46%のゲーム(単一セット)に勝利しました。スキルレベル別に分類すると、ロボットは初心者との全ての試合に勝利し、上級者と上級+選手との全ての試合に敗れ、中級者との55%の試合に勝利しました。これは、このエージェントが卓球のラリーにおいて中級レベルの人間選手のレベルに達したことを示しています。
ロボットが上級プレイヤーに勝てない理由は、反応速度、カメラの感知能力、回転の処理など、物理的および技術的な制限にあります。これらはシミュレーション環境で正確にモデル化するのが難しい要素です。
ロボットとの対戦も魅力的
研究参加者は、ロボットとの対戦を非常に楽しんだと述べ、「楽しさ」と「魅力」の面でロボットに高い評価を与えました。彼らは全員、ロボットと「再び対戦したい」と一致して述べました。自由時間中、彼らは平均して5分間のうち4分06秒をロボットとプレイしました。
ロボットは下回転が苦手
最も高いスキルを持つ参加者は、ロボットが下回転の処理が苦手だと指摘しました。この観察結果をテストするために、研究者はボールの回転に基づいてロボットの着地率をプロットしました。結果から、ロボットは下回転が増えるにつれて着地率が大幅に低下することがわかりました。この欠点は、部分的にはロボットが低いボールを処理する際にテーブルとの衝突を避けようとすることによるものです。また、ボールの回転をリアルタイムで判断することが実際に難しいことも原因です。