AIピンポンロボットが人間を打ち負かし、中級レベルの選手の実力に到達

DeepMindが発表した人工知能の新作

予想を超えて、このロボットはすでに中級レベルに達している。

その性能を見た後、ネットユーザーは次々とコメントしています:### 買えますか?欲しいです。

予期せぬ状況にも冷静に対応

卓球は体力、戦略、技術など様々な面で総合的に高い要求がある競技で、人間も多年の訓練を経てようやく習得できるものです。

そのため、チェスや囲碁のような純粋な戦略ゲームとは異なり、ロボットにとって卓球は総合能力を試す重要な基準となります。例えば、高速運動、リアルタイムの精密制御、戦略的決定、システム設計などです。

例えば、ボールの異なる落下地点に対して、ロボットは素早く位置を移動する必要があります。明らかにアウトになるボールに対しては、ロボットは受けないことを選択すべきです。

チームは29人の異なる技能レベルの卓球選手を集めて試合を行いました。初心者、中級者、上級者、そして上級以上の選手が含まれています。

人間とロボットは3試合を行い、試合は標準的な卓球ルールに従いました。(ただし、ロボットはサーブができないため、全試合人間がサーブを行いました)

これまでにも卓球ロボットの研究はありましたが、今回のGoogleのロボットの特徴は、見たことのない人間と全面的な競技対決ができることです。

人間の様々なプレイスタイルに、ロボットは素早く適応できます。

例えばこの選手を見てください。試合開始直後はロボットが明らかにまだ適応過程にあり、人間が9対2の大差でロボットを破りました。

しかし次のゲームでは、ロボットが明らかに相手のスタイルに慣れ、常にスコアを追いかけています。両者が互角の戦いを繰り広げています。

最終的に、全ての対戦相手の中で、ロボットは全ての初心者との試合に勝利し、中級者との試合では55%の勝率を収めました。

現時点ではロボットはまだ上級者に勝つことはできませんが、人間からの様々なフィードバックを見ると、みんながこのロボットと遊ぶことを楽しんでいることがわかります。

小さな卓球、どのように攻略したのか?

方法を紹介する前に、まず卓球ロボットのハードウェア構成を見てみましょう。

本体には6自由度のスイスABB社製1100ロボットアームを採用し、2本のFesto直線ガイドレール上に設置されており、平面内を移動できるようになっています。横方向移動ガイドレールは4メートル、縦方向移動ガイドレールは2メートルの長さです。

ロボットアームには3Dプリントされたラケットハンドルと短粒ラバーを貼ったラケットが取り付けられています。

このような小さな装置が、どのように卓球を学んだのでしょうか?

要約すると、### 強化学習と### 模倣学習を組み合わせたハイブリッド訓練方法を使用しました。

チームは階層的でモジュール化された戦略アーキテクチャを設計し、エージェントには低レベルスキルライブラリ(LLC)と高レベルコントローラ(HLC)が含まれています。

LLCは専門化された戦略の集合で、各戦略はフォアハンド打球、バックハンド打球、サーブなどの### 特定の卓球スキルを実行するよう訓練されています。これらのLLCはCNNアーキテクチャを使用し、シミュレーション環境での進化戦略アルゴリズムによって訓練されました。

訓練過程では実世界から収集したボールの状態データセットを採用し、シミュレーション環境と実環境の一貫性を確保しました。

一方、HLCは### 各ボールが来るたびに最適なLLCを選択する責任があります。

複数のコンポーネントを含んでいます:フォアハンドかバックハンドを選択するスタイル戦略、来球の回転タイプを識別する回転分類器、各LLCの能力を記述するLLCスキル記述子、現在の状況に基づいて候選LLCをショートリストする一連のヒューリスティック戦略。

HLCはまた、オンライン学習によるLLC選好を使用して、対戦相手の特徴に適応し、シミュレーションから現実への差を埋めています。

具体的には、チームはまず少量の人間の試合データを収集し、初期タスク条件を設定し、次にシミュレーション環境で強化学習を使用してエージェントを訓練し、その後、戦略をゼロショットで実世界に展開しました。

その中でMuJoCo物理エンジンを使用してボールとロボットの動力学を精密にシミュレーションし、空気抵抗やマグヌス効果などを含めました。さらに、トップスピン「補正」を設計し、シミュレーションで異なるラケットパラメータを切り替えることで、実世界のトップスピンとバックスピンの効果をシミュレートしました。

エージェントと人間が継続的に対戦する過程で、より多くの訓練タスク条件を生成し、訓練-展開を繰り返します。

ロボットのスキルが徐々に向上し、試合も次第に複雑になりますが、依然として実世界のタスク条件に基づいています。ロボットはデータを収集した後、その能力の不足を発見し、その後シミュレーション環境での継続的な訓練によってこれらの欠陥を補います。

この方法により、ロボットのスキルはシミュレーションと現実を組み合わせたサイクルプロセスで自動的に反復改善されます。

さらに、このロボットは対戦相手の行動とプレイスタイルを追跡して異なる相手に適応することができます。例えば、相手がボールをテーブルのどの部分に返す傾向があるかなどです。

これにより、異なる技術を試し、自身の成功率をモニタリングし、リアルタイムで戦略を調整することができます。

人間との対戦実験で、チームはこのロボットに弱点があることも発見しました:バックスピンボールの処理が得意ではありません。

ボールの回転の推定に基づいて、