AI campeão de tênis de mesa: Robô da DeepMind derrota novato humano

O primeiro agente robótico de tênis de mesa com aprendizagem que atingiu o nível de jogadores amadores humanos demonstrou um desempenho excepcional em competições.

Introdução ao Método

O agente é composto por uma biblioteca de habilidades de baixo nível e um controlador de alto nível. A biblioteca de habilidades de baixo nível concentra-se em aspectos específicos do tênis de mesa, como forehand com topspin, mira de backhand ou saque de forehand. Além de incluir estratégias de treinamento, o estudo também coleta e armazena informações offline e online sobre as vantagens, desvantagens e limitações de cada habilidade de baixo nível. O controlador de alto nível, responsável por coordenar as habilidades de baixo nível, seleciona a melhor habilidade com base nas estatísticas atuais do jogo e nas descrições das habilidades.

Além disso, o estudo também coletou uma pequena quantidade de dados de jogos entre humanos e humanos como semente para as condições iniciais da tarefa, incluindo informações sobre posição, velocidade e rotação. Em seguida, o agente foi treinado usando aprendizado por reforço em um ambiente simulado, e algumas técnicas existentes foram utilizadas para implantar a política perfeitamente no hardware real.

O agente joga contra humanos para gerar mais dados de treinamento, e à medida que o robô continua aprendendo, os padrões do jogo se tornam cada vez mais complexos, permitindo que o agente aprenda ações cada vez mais complexas. Este ciclo híbrido "simulação-realidade" cria um sistema de ensino automático, fazendo com que as habilidades do robô melhorem continuamente ao longo do tempo.

Controle Hierárquico

O controle hierárquico inclui principalmente as seguintes partes:

  1. Estilo de jogo de tênis de mesa: O controlador de alto nível (HLC, high-level controller) primeiro decide qual estilo de jogo usar (forehand ou backhand);
  2. Ajuste: Com base nas estatísticas dos jogos contra o oponente, as preferências de cada HLC (valores H) são mantidas online;
  3. Seleção da habilidade mais eficaz: O HLC amostra os LLCs qualificados com base nos valores H ajustados;
  4. Atualização: Os valores H e as estatísticas do oponente são continuamente atualizados até o final do jogo.

Resultados

Os pesquisadores compararam o agente com 29 jogadores de tênis de mesa de diferentes níveis, incluindo iniciantes, intermediários, avançados e avançados+. Os jogadores humanos jogaram três partidas contra o robô seguindo as regras padrão do tênis de mesa, mas com pequenas modificações devido à incapacidade do robô de sacar.

Contra todos os oponentes, o robô venceu 45% das partidas (matches) e 46% dos jogos individuais (games). Detalhando por nível de habilidade, o robô venceu todas as partidas contra iniciantes, perdeu todas as partidas contra jogadores avançados e avançados+, e venceu 55% das partidas contra jogadores intermediários. Isso indica que o agente atingiu o nível de um jogador humano intermediário em rallies de tênis de mesa.

As razões pelas quais o robô não consegue vencer jogadores avançados são limitações físicas e técnicas, incluindo velocidade de reação, capacidade de detecção da câmera, processamento de rotação, etc., que são difíceis de modelar com precisão em um ambiente simulado.

Jogar contra o robô também é atraente

Os participantes do estudo relataram que gostaram muito de jogar contra o robô e deram notas altas ao robô em termos de "diversão" e "engajamento". Eles também expressaram unanimemente que estariam "muito dispostos" a jogar contra o robô novamente. Durante o tempo livre, eles jogaram em média 4 minutos e 6 segundos com o robô em um período de 5 minutos.

O robô não é bom em lidar com backspin

Os participantes mais habilidosos mencionaram que o robô não era bom em lidar com backspin. Para testar essa observação, os pesquisadores plotaram a taxa de acerto do robô com base na rotação da bola, e os resultados mostraram que a taxa de acerto do robô diminuía significativamente quando enfrentava mais bolas com backspin. Essa deficiência é parcialmente devido ao robô evitar colisões com a mesa ao lidar com bolas baixas, e em segundo lugar, porque determinar a rotação da bola em tempo real é realmente difícil.

Link de referência