ИИ-робот для настольного тенниса побеждает человека, достигая уровня игрока среднего класса

DeepMind представила новую разработку в области искусственного интеллекта

Превзошло ожидания, этот робот уже достиг среднего уровня.

Посмотрев на его выступление, пользователи сети выразили: ### Можно ли его купить? Хочу.

Способен уверенно справляться и с неожиданными ситуациями

Настольный теннис - это вид спорта, требующий высокого уровня физической подготовки, стратегии, техники и других комплексных навыков, которые люди обычно осваивают только после многих лет тренировок.

Поэтому, в отличие от чисто стратегических игр, таких как шахматы или го, настольный теннис стал важным эталоном для оценки комплексных способностей роботов, включая высокоскоростное движение, точный контроль в реальном времени, стратегическое принятие решений, системное проектирование и т.д.

Например, робот должен быстро перемещаться в зависимости от различных точек падения мяча; при явно выходящем за пределы стола мяче робот должен выбрать не отбивать его.

Команда нашла 29 игроков в настольный теннис разного уровня мастерства, включая начинающих, средних, продвинутых и выше продвинутого уровня.

Люди и робот провели 3 матча по стандартным правилам настольного тенниса. (Однако, поскольку робот не может подавать, все подачи выполнялись людьми)

До этого уже проводились исследования роботов для настольного тенниса, но особенность робота Google в том, что он может вести полноценные соревновательные поединки с незнакомыми людьми.

Он способен быстро адаптироваться к различным стилям игры людей.

Например, посмотрите на этого игрока: в начале матча робот явно еще адаптировался, и человек победил его со счетом 9:2.

Но уже в следующей партии робот явно освоился со стилем противника и постоянно держался близко по счету. Игра шла на равных.

В итоге среди всех соперников робот выиграл все матчи у начинающих, а в матчах с игроками среднего уровня его процент побед составил 55%.

Хотя в настоящее время робот еще не может победить продвинутых игроков, по отзывам людей видно, что всем нравится играть с этим роботом.

Как освоить маленький настольный теннис?

Прежде чем рассказать о методе, давайте взглянем на аппаратную конфигурацию робота для настольного тенниса.

Основой является 6-осевой робот-манипулятор ABB 1100 швейцарской компании, установленный на двух линейных направляющих Festo, что позволяет ему перемещаться в плоскости. Поперечная направляющая имеет длину 4 метра, а продольная - 2 метра.

На манипуляторе установлена 3D-печатная ручка ракетки и ракетка с коротким шипованным покрытием.

Как же эта маленькая штучка научилась играть в настольный теннис?

Если обобщить, использовался комбинированный метод обучения, сочетающий ### обучение с подкреплением и ### имитационное обучение.

Команда разработала иерархическую и модульную архитектуру стратегии, где агент включает библиотеку низкоуровневых навыков (LLC) и высокоуровневый контроллер (HLC).

LLC представляет собой набор специализированных стратегий, каждая из которых обучена выполнению ### определенного навыка настольного тенниса, такого как удар справа, удар слева, подача и т.д. Эти LLC используют архитектуру CNN и обучаются с помощью алгоритма эволюционных стратегий в симуляционной среде.

В процессе обучения использовался набор данных о состоянии мяча, собранный в реальном мире, чтобы обеспечить согласованность между симуляционной и реальной средой.

HLC отвечает за ### выбор наиболее подходящего LLC при каждом приходе мяча.

Он включает несколько компонентов: стратегию стиля для выбора удара справа или слева; классификатор вращения для определения типа вращения приходящего мяча; дескриптор навыков LLC, описывающий возможности каждого LLC; набор эвристических стратегий для составления короткого списка кандидатов LLC на основе текущей ситуации.

HLC также использует онлайн-обучение предпочтений LLC для адаптации к особенностям противника и компенсации разрыва между симуляцией и реальностью.

Конкретно, команда сначала собрала небольшое количество данных о матчах людей, установила начальные условия задачи, затем обучила агента в симуляционной среде с помощью обучения с подкреплением, а затем развернула стратегию в реальном мире без дополнительных примеров.

При этом использовался физический движок MuJoCo для точного моделирования динамики мяча и робота, включая сопротивление воздуха, эффект Магнуса и т.д. Также была разработана "коррекция" для верхнего вращения, моделирующая эффекты верхнего и нижнего вращения в реальном мире путем переключения различных параметров ракетки в симуляции.

В процессе постоянной игры агента с людьми можно генерировать больше условий для тренировочных задач и повторять цикл обучения-развертывания.

Навыки робота постепенно улучшаются, матчи становятся все более сложными, но по-прежнему основаны на условиях задач реального мира. Собрав данные, робот может выявить недостатки в своих способностях и затем восполнить эти пробелы путем непрерывного обучения в симуляционной среде.

С помощью этого метода навыки робота могут автоматически итеративно улучшаться в процессе цикла, сочетающего симуляцию и реальность.

Кроме того, этот робот может отслеживать поведение и стиль игры противника, чтобы адаптироваться к разным соперникам, например, определять, в какую часть стола противник предпочитает возвращать мяч.

Таким образом, он может пробовать различные приемы, отслеживать свой уровень успеха и корректировать стратегию в реальном времени.

В экспериментах по игре с людьми команда также обнаружила слабое место этого робота: он не очень хорошо справляется с мячами с нижним вращением.

Согласно оценке вращения мяча,