DeepMindが卓球ロボットを発表：中級者レベルのプレイが可能で、あらゆる球筋に対応

ロボットに卓球の試合をさせるにはどうすればいいか?

現在、卓球はパリオリンピックの注目の的の1つであり、卓球選手は試合中に非常に高い体力レベル、高速移動能力、様々な球の精密なコントロール、そして超人的な敏捷性を示しています。

そのため、1980年代から研究者たちは卓球をロボットのベンチマークとして使用し、多くの卓球ロボットを開発してきました。ボールを相手コートに返す、目標位置に打つ、スマッシュを打つ、協力してラリーを続ける、そして卓球の他の多くの重要な側面で進歩を遂げてきました。しかし、まだ見たことのない人間の相手と完全な卓球の試合をするロボットは存在していません。

この研究では、階層的でモジュール化された戦略アーキテクチャ、反復的なタスク分布の定義、シミュレーションからシミュレーションへの適応層、ドメインランダム化、未知の相手へのリアルタイム適応、ハードウェア展開などの技術を通じて、Google DeepMindチームはロボットが人間のプレーヤーと競技卓球の試合で amateur human level のパフォーマンスを達成しました。

1. スキルライブラリに基づく階層的でモジュール化された戦略アーキテクチャ

低レベルコントローラー(LLC):このライブラリには、フォアハンド攻撃、バックハンドポジショニング、フォアハンドサーブなど、様々な卓球スキルが含まれています。各LLCは独立した戦略であり、特定のスキルのトレーニングに焦点を当てています。これらのLLCはニューラルネットワークを通じて学習され、MuJoCo物理エンジンを使用してシミュレーショントレーニングが行われます。

高レベルコントローラー(HLC):HLCは現在の試合状況と相手の能力に基づいて最適なLLCを選択する責任があります。以下のモジュールで構成されています：

スタイル選択戦略：この戦略は、入ってくるボールのタイプ（サーブまたは攻撃）に基づいて、フォアハンドまたはバックハンドの使用を選択します。

スピン分類器：この分類器は、入ってくるボールがトップスピンかバックスピンかを判断します。

LLCスキル記述子：これらの記述子は、各LLCの異なる入球条件下でのパフォーマンス指標（例：命中率やボールの落下位置など）を記録します。

戦略選択モジュール：このモジュールは、LLCスキル記述子、試合統計、相手の能力に基づいてLLCの候補リストを生成します。

LLC選好度（H-value）：このモジュールは勾配バンディットアルゴリズムを使用して各LLCの選好度をオンラインで学習し、その選好度に基づいて最終的なLLCを選択します。

2. ゼロショットシミュレーションから現実への技術の実装

反復的なタスク分布の定義：この方法は、人間対人間の試合データから初期ボール状態データを収集し、シミュレーション環境でLLCとHLCをトレーニングします。その後、シミュレーショントレーニングで生成されたデータを実世界のデータセットに追加し、このプロセスを繰り返すことで、トレーニングタスクの分布を徐々に改善します。

シミュレーションからシミュレーションへの適応層：シミュレーション環境におけるトップスピンとバックスピンのボールモデルパラメータの違いによる問題を解決するために、論文では2つの解決策を提案しています：スピン正則化とシミュレーションからシミュレーションへの適応層です。スピン正則化はLLCのトレーニングデータセットを調整することで解決し、シミュレーションからシミュレーションへの適応層はFiLM層を使用してトップスピンとバックスピンの間のマッピング関係を学習します。

ドメインランダム化：トレーニング過程で、論文ではシミュレーション環境の観察ノイズ、遅延、テーブルとラケットの減衰、摩擦などのパラメータをランダム化し、実世界の不確実性をシミュレートします。

3. 未知の相手へのリアルタイム適応

リアルタイムの試合統計追跡：HLCはロボットと相手のスコアやミスなどの試合統計をリアルタイムで追跡し、これらのデータに基づいてLLCの選好度を調整することで、相手の変化に適応します。

LLCの選好度のオンライン学習：勾配バンディットアルゴリズムを通じて、HLCは各LLCの選好度をオンラインで学習し、相手の弱点に基づいてより適切なLLCを選択できます。

研究チームは、タスク条件を初期化するために少量の人間対人間のプレイデータを収集しました。その後、強化学習（RL）を使用してシミュレーション内でエージェントをトレーニングし、複数の技術を採用してポリシーをゼロショットで実際のハードウェアに展開しました。このエージェントは人間のプレイヤーと対戦し、より多くのトレーニングタスク条件を生成し、その後トレーニング-展開サイクルを繰り返します。ロボットが進歩するにつれて、試合の基準はより複雑になりますが、依然として現実世界のタスク条件に基づいています。このハイブリッドシミュレーション-現実サイクルは、ロボットのスキルが時間とともに向上する自動化されたタスクカリキュラムを作成します。

どのように打つか?

エージェントのスキルレベルを評価するために、ロボットは29人の異なるスキルレベルの卓球選手と競技試合を行いました - 初心者、中級、上級、上級+で、これらのレベルはプロの卓球コーチによって決定されました。

すべての対戦相手に対して、ロボットは試合の45%と単一ゲームの46%を勝利しました。スキルレベル別に分類すると、ロボットは初心者に対してすべての試合に勝利し、上級と上級+の選手に対してはすべての試合に敗れ、中級選手に対しては55%の試合に勝利したことがわかります。これは、このエージェントがラリーにおいて中級人間プレイヤーのレベルに達したことを強く示しています。

研究参加者はロボットとのプレイを楽しみ、「楽しい」と「魅力的」の面で高い評価を与えました。この評価は、参加者が勝っても負けても、異なるスキルレベルで一貫していました。彼らはまた、圧倒的に「確実に」ロボットと再びプレイしたいと答えました。ロボットと自由にプレイする時間を与えられたとき、彼らは平均4分06秒、合計5分間プレイしました。

上級プレイヤーはロボットの戦略の弱点を利用することができましたが、それでも彼らはそれとプレイすることを楽しみました。試合後のインタビューで、彼らはそれを球出し機よりも活気のある練習パートナーだと考えました。

不足点と展望

研究チームは、このロボット学習システムにはまだいくつかの### 制限があると述べています。例えば、速いボールと低いボールへの反応能力が限られている、スピン検出の精度が低い、複数のボール戦略戦術が欠如しているなどです。

将来の研究方向には、ロボットの様々なボールへの対処能力の向上、より複雑な戦略の学習、モーションキャプチャ技術の改善などが含まれます。

研究チームはまた、この研究で提案された階層的戦略アーキテクチャとゼロショットシミュレーションから現実への転送方法が他のロボット学習タスクに適用できると述べています。さらに、リアルタイム適応技術は、ロボットが常に変化する環境とタスクにより適応するのに役立ちます。さらに、システム設計原則は高性能で堅牢なロボット学習システムの開発に不可欠です。