DeepMind lança robô de tênis de mesa: rival de jogadores intermediários, capaz de lidar com todos os tipos de jogadas

Como fazer robôs jogarem tênis de mesa competitivo?

Atualmente, o tênis de mesa é uma grande atração nos Jogos Olímpicos de Paris, com os jogadores demonstrando altos níveis de condicionamento físico, capacidade de movimento rápido, controle preciso de vários tipos de bolas e reflexos sobre-humanos.

Por isso, desde a década de 1980, os pesquisadores têm usado o tênis de mesa como referência para robôs, desenvolvendo muitos robôs de tênis de mesa e fazendo progressos em aspectos cruciais como rebater a bola para o lado do oponente, acertar posições-alvo, fazer smashes, jogar cooperativamente e muitos outros aspectos do tênis de mesa. No entanto, ainda não há robôs capazes de jogar partidas completas contra oponentes humanos desconhecidos.

Nesta pesquisa, através de uma arquitetura de estratégia hierárquica e modular, definição iterativa de distribuição de tarefas, camada de adaptação de simulação para simulação, randomização de domínio, adaptação em tempo real a oponentes desconhecidos e implantação de hardware, a equipe do Google DeepMind alcançou um desempenho de nível amador humano em partidas competitivas de tênis de mesa entre robôs e jogadores humanos.

1. Arquitetura de estratégia hierárquica e modular baseada em biblioteca de habilidades

Controladores de baixo nível (LLC): Esta biblioteca contém várias habilidades de tênis de mesa, como forehand de ataque, backhand de posicionamento, saque de forehand, etc. Cada LLC é uma estratégia independente, focada no treinamento de uma habilidade específica. Esses LLCs são aprendidos através de redes neurais e treinados em simulação usando o motor físico MuJoCo.

Controlador de alto nível (HLC): O HLC é responsável por selecionar o LLC mais apropriado com base na situação atual do jogo e na capacidade do oponente. É composto pelos seguintes módulos:

Estratégia de seleção de estilo: Esta estratégia escolhe entre forehand ou backhand com base no tipo de bola recebida (saque ou ataque).

Classificador de rotação: Este classificador determina se a bola recebida tem topspin ou backspin.

Descritores de habilidades LLC: Estes descritores registram métricas de desempenho para cada LLC em diferentes condições de bola recebida, como taxa de acerto e posição de queda da bola.

Módulo de seleção de estratégia: Este módulo gera uma lista de candidatos LLC com base nos descritores de habilidades LLC, estatísticas do jogo e capacidade do oponente.

Preferência LLC (H-value): Este módulo usa um algoritmo de bandido gradiente para aprender online os valores de preferência para cada LLC e seleciona o LLC final com base nesses valores.

2. Técnicas para implementação de simulação para realidade zero-shot

Definição iterativa da distribuição de tarefas: Este método coleta dados iniciais de estado da bola de partidas humano-humano e treina LLCs e HLCs em ambiente simulado. Em seguida, adiciona os dados gerados pelo treinamento simulado ao conjunto de dados do mundo real e repete o processo, refinando gradualmente a distribuição de tarefas de treinamento.

Camada de adaptação de simulação para simulação: Para resolver o problema das diferenças nos parâmetros do modelo de bola com topspin e backspin no ambiente simulado, o artigo propõe duas soluções: regularização de rotação e camada de adaptação de simulação para simulação. A regularização de rotação resolve ajustando o conjunto de dados de treinamento do LLC, enquanto a camada de adaptação de simulação para simulação usa camadas FiLM para aprender o mapeamento entre bolas com topspin e backspin.

Randomização de domínio: Durante o treinamento, o artigo randomiza parâmetros no ambiente simulado, como ruído de observação, atraso, amortecimento da mesa e raquete, atrito, etc., para simular incertezas do mundo real.

3. Adaptação em tempo real a oponentes desconhecidos

Rastreamento em tempo real de estatísticas do jogo: O HLC rastreia em tempo real estatísticas do jogo, como pontuação e erros do robô e do oponente, e ajusta os valores de preferência do LLC com base nesses dados para se adaptar às mudanças do oponente.

Aprendizagem online de preferências LLC: Através do algoritmo de bandido gradiente, o HLC pode aprender online os valores de preferência para cada LLC e selecionar LLCs mais apropriados com base nos pontos fracos do oponente.

A equipe de pesquisa coleta uma pequena quantidade de dados de jogos humano-humano para inicializar as condições da tarefa. Em seguida, usa aprendizagem por reforço (RL) para treinar agentes em simulação e emprega várias técnicas para implantar as políticas zero-shot no hardware real. Este agente joga contra jogadores humanos para gerar mais condições de tarefa de treinamento, e então repete o ciclo de treinamento-implantação. À medida que o robô progride, o padrão dos jogos se torna mais complexo, ainda baseado em condições de tarefa do mundo real. Este ciclo híbrido simulação-realidade cria um currículo automatizado de tarefas que melhora as habilidades do robô ao longo do tempo.

Como ele se saiu?

Para avaliar o nível de habilidade do agente, o robô jogou partidas competitivas contra 29 jogadores de tênis de mesa de diferentes níveis de habilidade - iniciante, intermediário, avançado e avançado+, níveis determinados por um treinador profissional de tênis de mesa.

Contra todos os oponentes, o robô venceu 45% das partidas e 46% dos sets individuais. Detalhando por nível de habilidade, pode-se ver que o robô venceu todas as partidas contra iniciantes, perdeu todas as partidas contra jogadores avançados e avançados+, e venceu 55% das partidas contra jogadores intermediários. Isso indica fortemente que o agente atingiu o nível de jogadores humanos intermediários nas partidas.

Os participantes da pesquisa gostaram de jogar contra o robô, dando-lhe notas altas em "diversão" e "engajamento". Essas notas foram consistentes em todos os níveis de habilidade, independentemente de os participantes terem vencido ou perdido. Eles também responderam esmagadoramente que "definitivamente jogariam" contra o robô novamente. Quando lhes foi dado tempo livre para jogar contra o robô, eles jogaram em média 4 minutos e 6 segundos de um total de 5 minutos.

Jogadores avançados foram capazes de explorar fraquezas na estratégia do robô, mas ainda assim gostaram de jogar contra ele. Em entrevistas pós-jogo, eles o consideraram um parceiro de prática mais dinâmico do que uma máquina de lançamento de bolas.

Limitações e perspectivas

A equipe de pesquisa afirma que este sistema de aprendizagem robótica ainda tem algumas ### limitações, como capacidade limitada de resposta a bolas rápidas e baixas, baixa precisão na detecção de rotação, falta de estratégias e táticas de múltiplas bolas, etc.

Direções futuras de pesquisa incluem melhorar a capacidade do robô de lidar com vários tipos de bolas, aprender estratégias mais complexas, melhorar as técnicas de captura de movimento, etc.

A equipe de pesquisa também afirma que a arquitetura de estratégia hierárquica e os métodos de transferência zero-shot de simulação para realidade propostos nesta pesquisa podem ser aplicados a outras tarefas de aprendizagem robótica. Além disso, as técnicas de adaptação em tempo real podem ajudar os robôs a se adaptarem melhor a ambientes e tarefas em constante mudança. Além disso, os princípios de design do sistema são cruciais para o desenvolvimento de sistemas de aprendizagem robótica de alto desempenho e robustos.