AI пинг-понговый мастер: робот DeepMind побеждает новичков-людей

Первый обучаемый робот-агент для настольного тенниса, достигший уровня любителя-человека, продемонстрировал отличные результаты в соревновательных матчах.

Описание метода

Этот интеллектуальный агент состоит из библиотеки низкоуровневых навыков и высокоуровневого контроллера. Библиотека низкоуровневых навыков фокусируется на определенных аспектах настольного тенниса, таких как форхенд с верхним вращением, бэкхенд прицеливание или форхенд подача. Помимо стратегий обучения, исследование также собирает и хранит информацию о преимуществах, недостатках и ограничениях каждого низкоуровневого навыка офлайн и онлайн. Высокоуровневый контроллер, отвечающий за координацию низкоуровневых навыков, выбирает оптимальный навык на основе текущей игровой статистики и описания навыков.

Кроме того, исследование собрало небольшой набор данных игр между людьми в качестве начальных условий задачи, включая информацию о положении, скорости и вращении. Затем агент обучался с помощью reinforcement learning в симулированной среде, и использовались некоторые существующие технологии для бесшовного развертывания стратегии на реальном оборудовании.

Агент играет с людьми для генерации дополнительных обучающих данных, и по мере продолжения обучения робота игровые стандарты становятся все более сложными, позволяя агенту изучать все более сложные действия. Этот гибридный цикл "симуляция-реальность" создает автоматическое обучение, позволяющее навыкам робота постоянно улучшаться с течением времени.

Иерархический контроль

Иерархический контроль включает следующие части:

  1. Стиль игры в настольный теннис: высокоуровневый контроллер (HLC) сначала решает, какой стиль использовать (форхенд или бэкхенд);
  2. Настройка: на основе статистики игр с противником, онлайн поддерживаются предпочтения для каждого HLC (H-значения);
  3. Выбор наиболее эффективного навыка: HLC выбирает LLC на основе скорректированных H-значений;
  4. Обновление: H-значения и статистика противника постоянно обновляются до конца матча.

Результаты

Исследователи сравнили агента с 29 игроками в настольный теннис разного уровня, включая начинающих, средних, продвинутых и продвинутых+ игроков. Люди играли с роботом три матча по стандартным правилам настольного тенниса, с небольшими изменениями, так как робот не мог подавать.

Против всех противников робот выиграл 45% матчей и 46% отдельных игр. По уровням навыков робот выиграл все матчи против начинающих, проиграл все матчи продвинутым и продвинутым+ игрокам, и выиграл 55% матчей против игроков среднего уровня. Это показывает, что агент достиг уровня среднего человека-игрока в розыгрышах настольного тенниса.

Робот не смог победить продвинутых игроков из-за физических и технических ограничений, включая скорость реакции, способности камеры, обработку вращения и т.д., что трудно точно смоделировать в симулированной среде.

Игра с роботом также привлекательна

Участники исследования сообщили, что им очень понравилось играть с роботом, и высоко оценили его как "веселого" и "привлекательного". Они также единогласно выразили "сильное желание" снова сыграть с роботом. В свободное время они в среднем играли с роботом 4 минуты 6 секунд из 5 минут.

Робот не справляется с нижним вращением

Самые опытные участники отметили, что робот плохо справляется с нижним вращением. Чтобы проверить это наблюдение, исследователи построили график процента попаданий робота в зависимости от вращения мяча, и результаты показали, что процент попаданий робота значительно снижается при большем нижнем вращении. Этот недостаток частично объясняется тем, что робот пытается избежать столкновения со столом при обработке низких мячей, а также сложностью определения вращения мяча в реальном времени.

Ссылка на источник