Превзошло ожидания, этот робот уже достиг среднего уровня.
Посмотрев на его выступление, пользователи сети выразили: ### Можно ли его купить? Хочу.
Способен уверенно справляться и с неожиданными ситуациями
Настольный теннис - это вид спорта, требующий высокого уровня физической подготовки, стратегии, техники и других комплексных навыков, которые люди обычно осваивают только после многих лет тренировок.
Поэтому, в отличие от чисто стратегических игр, таких как шахматы или го, настольный теннис стал важным эталоном для оценки комплексных способностей роботов, включая высокоскоростное движение, точный контроль в реальном времени, стратегическое принятие решений, системное проектирование и т.д.
Например, робот должен быстро перемещаться в зависимости от различных точек падения мяча; при явно выходящем за пределы стола мяче робот должен выбрать не отбивать его.
Команда нашла 29 игроков в настольный теннис разного уровня мастерства, включая начинающих, средних, продвинутых и выше продвинутого уровня.
Люди и робот провели 3 матча по стандартным правилам настольного тенниса. (Однако, поскольку робот не может подавать, все подачи выполнялись людьми)
До этого уже проводились исследования роботов для настольного тенниса, но особенность робота Google в том, что он может вести полноценные соревновательные поединки с незнакомыми людьми.
Он способен быстро адаптироваться к различным стилям игры людей.
Например, посмотрите на этого игрока: в начале матча робот явно еще адаптировался, и человек победил его со счетом 9:2.
Но уже в следующей партии робот явно освоился со стилем противника и постоянно держался близко по счету. Игра шла на равных.
В итоге среди всех соперников робот выиграл все матчи у начинающих, а в матчах с игроками среднего уровня его процент побед составил 55%.
Хотя в настоящее время робот еще не может победить продвинутых игроков, по отзывам людей видно, что всем нравится играть с этим роботом.
Как освоить маленький настольный теннис?
Прежде чем рассказать о методе, давайте взглянем на аппаратную конфигурацию робота для настольного тенниса.
Основой является 6-осевой робот-манипулятор ABB 1100 швейцарской компании, установленный на двух линейных направляющих Festo, что позволяет ему перемещаться в плоскости. Поперечная направляющая имеет длину 4 метра, а продольная - 2 метра.
На манипуляторе установлена 3D-печатная ручка ракетки и ракетка с коротким шипованным покрытием.
Как же эта маленькая штучка научилась играть в настольный теннис?
Если обобщить, использовался комбинированный метод обучения, сочетающий ### обучение с подкреплением и ### имитационное обучение.
Команда разработала иерархическую и модульную архитектуру стратегии, где агент включает библиотеку низкоуровневых навыков (LLC) и высокоуровневый контроллер (HLC).
LLC представляет собой набор специализированных стратегий, каждая из которых обучена выполнению ### определенного навыка настольного тенниса, такого как удар справа, удар слева, подача и т.д. Эти LLC используют архитектуру CNN и обучаются с помощью алгоритма эволюционных стратегий в симуляционной среде.
В процессе обучения использовался набор данных о состоянии мяча, собранный в реальном мире, чтобы обеспечить согласованность между симуляционной и реальной средой.
HLC отвечает за ### выбор наиболее подходящего LLC при каждом приходе мяча.
Он включает несколько компонентов: стратегию стиля для выбора удара справа или слева; классификатор вращения для определения типа вращения приходящего мяча; дескриптор навыков LLC, описывающий возможности каждого LLC; набор эвристических стратегий для составления короткого списка кандидатов LLC на основе текущей ситуации.
HLC также использует онлайн-обучение предпочтений LLC для адаптации к особенностям противника и компенсации разрыва между симуляцией и реальностью.
Конкретно, команда сначала собрала небольшое количество данных о матчах людей, установила начальные условия задачи, затем обучила агента в симуляционной среде с помощью обучения с подкреплением, а затем развернула стратегию в реальном мире без дополнительных примеров.
При этом использовался физический движок MuJoCo для точного моделирования динамики мяча и робота, включая сопротивление воздуха, эффект Магнуса и т.д. Также была разработана "коррекция" для верхнего вращения, моделирующая эффекты верхнего и нижнего вращения в реальном мире путем переключения различных параметров ракетки в симуляции.
В процессе постоянной игры агента с людьми можно генерировать больше условий для тренировочных задач и повторять цикл обучения-развертывания.
Навыки робота постепенно улучшаются, матчи становятся все более сложными, но по-прежнему основаны на условиях задач реального мира. Собрав данные, робот может выявить недостатки в своих способностях и затем восполнить эти пробелы путем непрерывного обучения в симуляционной среде.
С помощью этого метода навыки робота могут автоматически итеративно улучшаться в процессе цикла, сочетающего симуляцию и реальность.
Кроме того, этот робот может отслеживать поведение и стиль игры противника, чтобы адаптироваться к разным соперникам, например, определять, в какую часть стола противник предпочитает возвращать мяч.
Таким образом, он может пробовать различные приемы, отслеживать свой уровень успеха и корректировать стратегию в реальном времени.
В экспериментах по игре с людьми команда также обнаружила слабое место этого робота: он не очень хорошо справляется с мячами с нижним вращением.
Согласно оценке вращения мяча,