DeepMind研究人员展示了首个能与人类业余乒乓球选手竞争的AI机器人。该系统结合了ABB IRB 1100工业机械臂和DeepMind的定制AI软件。虽然人类专业选手仍然表现更佳,但该系统展示了机器在复杂物理任务中做出瞬时决策和适应的能力。
由于乒乓球对速度、反应和策略的要求,十年来它一直是机械臂基准测试的关键。
研究人员在arXiv上的预印本论文中写道:"这是第一个能在物理运动中与人类水平竞争的机器人代理,代表了机器人学习和控制的又一里程碑。"
这个未命名的乒乓球机器人代理(建议名称"AlphaPong")由包括David B. D'Ambrosio、Saminda Abeyruwan和Laura Graesser在内的研究团队开发。它在与不同技能水平的选手比赛中表现良好。在一项涉及29名参与者的研究中,AI机器人取得了45%的胜率,展示了扎实的业余水平技能。
值得注意的是,它赢得了100%对阵初学者的比赛,55%对阵中级选手的比赛。然而,它输掉了所有对阵高级选手的比赛。
机器人的物理配置包括IRB 1100,一个安装在两个线性轨道上用于2D平面移动的6自由度机械臂。高速摄像机跟踪球的位置,而动作捕捉系统观察人类对手的球拍动作。
DeepMind研究人员开发了一种两层方法来驱动机械臂,使其能够执行特定的乒乓球战术,同时根据每个对手的打法实时调整策略。这种适应性使其能够与任何业余水平的选手竞争,而无需针对不同对手进行特定训练。
该系统的架构结合了低级技能控制器(训练执行特定乒乓球技术)和高级战略决策者(一个更复杂的AI系统,分析游戏状态,适应对手风格,并为每个来球选择适当的低级技能策略)。
一个关键创新是AI模型的训练方法,在模拟物理环境中使用强化学习,同时将真实世界的例子作为训练数据。这种技术使机器人能够从约17,500个真实乒乓球轨迹中学习。
研究人员使用迭代过程来完善机器人的技能,从一小组人机对战数据集开始,然后让AI与真实对手竞争。每场比赛都产生了关于球轨迹和人类策略的新数据,这些数据被反馈到模拟中进行进一步训练。
这个过程重复了七个周期,使机器人能够不断适应技能越来越高的对手和多样化的打法。到最后一轮,AI已经从超过14,000次回合和3,000次发球中学习,积累了广泛的乒乓球知识,并缩小了模拟和现实之间的差距。
有趣的是,Nvidia一直在实验类似的模拟物理系统。他们的Eureka系统允许AI模型在模拟空间而不是真实世界中快速学习控制机械臂。
除了技术成就,Google的研究还探讨了人类选手与AI对手竞争的体验。令人惊讶的是,即使输给乒乓球机器人代理,人类选手也报告享受这种体验。
研究人员指出,"人类选手报告说,与机器人对战'有趣且引人入胜',这跨越了所有技能组和胜率。"这种积极反应表明AI在体育训练和娱乐方面的潜在应用。
然而,该系统也有局限性,对极快和高球表现不佳,难以检测严重的球旋转,并在反手击球方面表现薄弱。
Google DeepMind研究团队正在努力解决这些缺点。他们提出研究先进的控制算法和硬件优化,可能包括球轨迹的预测模型和机器人传感器与执行器之间更快的通信协议。
研究人员强调,随着结果的进一步完善,他们相信该系统未来可能与高水平乒乓球选手竞争。DeepMind在开发击败人类选手的AI模型方面有丰富经验,包括在围棋游戏中的AlphaZero和AlphaGo。
研究人员还表示,这个乒乓球机器人"神童"的影响不仅限于乒乓球。为这个项目开发的技术可以应用于各种需要快速反应和适应不可预测人类行为的机器人任务,包括制造业和医疗保健。