DeepMind研究人員推出了首個能與人類業餘乒乓球選手競爭的AI機器人。該系統結合了ABB IRB 1100工業機械臂和DeepMind的自定義AI軟體。雖然人類專業選手仍然表現更佳,但該系統展示了機器在複雜的物理任務中做出瞬時決策和適應的能力。
乒乓球在過去十年中一直是機械臂基準測試的關鍵,因為它需要速度、反應和策略。
研究人員在arXiv上的預印本論文中寫道:"這是第一個能在體育運動中與人類水平競爭的機器人代理,代表了機器人學習和控制的另一個里程碑。"
這個未命名的乒乓球機器人代理(建議名稱"AlphaPong")由包括David B. D'Ambrosio、Saminda Abeyruwan和Laura Graesser在內的研究團隊開發。它在對抗不同技能水平的選手時表現良好。在一項涉及29名參與者的研究中,AI機器人達到了45%的勝率,展示了紮實的業餘水平技能。
值得注意的是,它對初學者的勝率為100%,對中級選手的勝率為55%。然而,它輸掉了所有對高級選手的比賽。
機器人的物理配置包括IRB 1100,這是一個安裝在兩個線性軌道上的6自由度機械臂,可在2D平面上移動。高速攝像機追蹤球的位置,而動作捕捉系統觀察人類對手的球拍動作。
DeepMind研究人員開發了一種兩層方法來驅動機械臂,使其能夠執行特定的乒乓球戰術,同時根據每個對手的打法實時調整策略。這種適應性使它能夠與任何業餘水平的選手競爭,而無需針對不同對手進行特定訓練。
該系統的架構結合了低級技能控制器(訓練執行特定乒乓球技術)和高級策略決策者(一個更複雜的AI系統,分析遊戲狀態,適應對手風格,並為每個來球選擇適當的低級技能策略)。
一個關鍵創新是AI模型的訓練方法,在模擬物理環境中使用強化學習,同時將真實世界的例子作為訓練數據。這種技術使機器人能夠從約17,500個真實乒乓球軌跡中學習。
研究人員使用迭代過程來改進機器人的技能,從一個小型人機對戰數據集開始,然後讓AI與真實對手競爭。每場比賽都產生了關於球軌跡和人類策略的新數據,這些數據被反饋到模擬中進行進一步訓練。
這個過程重複了七個週期,使機器人能夠不斷適應越來越熟練的對手和多樣化的打法。到最後一輪,AI已經從超過14,000次回合和3,000次發球中學習,積累了大量乒乓球知識,並縮小了模擬和現實之間的差距。
有趣的是,Nvidia一直在實驗類似的模擬物理系統。他們的Eureka系統允許AI模型在模擬空間而不是真實世界中快速學習控制機械臂。
除了技術成就外,Google的研究還探討了人類選手與AI對手競爭的體驗。令人驚訝的是,即使輸給乒乓球機器人代理,人類選手也表示享受這種體驗。
研究人員指出,"人類選手報告說,與機器人對戰'有趣且引人入勝',這跨越了所有技能組和勝率。"這種積極反應表明AI在運動訓練和娛樂方面的潛在應用。
然而,該系統也有局限性,對極快和高的球表現不佳,難以檢測嚴重的球旋轉,並在反手打法方面表現較弱。
Google DeepMind研究團隊正在努力解決這些缺點。他們提議研究先進的控制算法和硬件優化,可能包括球軌跡的預測模型和機器人感測器與執行器之間更快的通信協議。
研究人員強調,隨著結果的進一步完善,他們相信該系統未來可能與高水平乒乓球選手競爭。DeepMind在開發擊敗人類玩家的AI模型方面有豐富經驗,包括在圍棋遊戲中的AlphaZero和AlphaGo。
研究人員還表示,這個機器人乒乓球"神童"的影響不僅限於乒乓球。為這個項目開發的技術可以應用於各種需要快速反應和適應不可預測人類行為的機器人任務,包括製造業和醫療保健。