Introdução ao Método
O agente é composto por uma biblioteca de habilidades de baixo nível e um controlador de alto nível. A biblioteca de habilidades de baixo nível concentra-se em aspectos específicos do tênis de mesa, como forehand com topspin, mira de backhand ou saque de forehand. Além de incluir estratégias de treinamento, o estudo também coleta e armazena informações offline e online sobre as vantagens, desvantagens e limitações de cada habilidade de baixo nível. O controlador de alto nível, responsável por coordenar as habilidades de baixo nível, seleciona a melhor habilidade com base nas estatísticas atuais do jogo e nas descrições das habilidades.
Além disso, o estudo também coletou uma pequena quantidade de dados de jogos entre humanos e humanos como semente para as condições iniciais da tarefa, incluindo informações sobre posição, velocidade e rotação. Em seguida, o agente foi treinado usando aprendizado por reforço em um ambiente simulado, e algumas técnicas existentes foram utilizadas para implantar a política perfeitamente no hardware real.
O agente joga contra humanos para gerar mais dados de treinamento, e à medida que o robô continua aprendendo, os padrões do jogo se tornam cada vez mais complexos, permitindo que o agente aprenda ações cada vez mais complexas. Este ciclo híbrido "simulação-realidade" cria um sistema de ensino automático, fazendo com que as habilidades do robô melhorem continuamente ao longo do tempo.
Controle Hierárquico
O controle hierárquico inclui principalmente as seguintes partes:
- Estilo de jogo de tênis de mesa: O controlador de alto nível (HLC, high-level controller) primeiro decide qual estilo de jogo usar (forehand ou backhand);
- Ajuste: Com base nas estatísticas dos jogos contra o oponente, as preferências de cada HLC (valores H) são mantidas online;
- Seleção da habilidade mais eficaz: O HLC amostra os LLCs qualificados com base nos valores H ajustados;
- Atualização: Os valores H e as estatísticas do oponente são continuamente atualizados até o final do jogo.
Resultados
Os pesquisadores compararam o agente com 29 jogadores de tênis de mesa de diferentes níveis, incluindo iniciantes, intermediários, avançados e avançados+. Os jogadores humanos jogaram três partidas contra o robô seguindo as regras padrão do tênis de mesa, mas com pequenas modificações devido à incapacidade do robô de sacar.
Contra todos os oponentes, o robô venceu 45% das partidas (matches) e 46% dos jogos individuais (games). Detalhando por nível de habilidade, o robô venceu todas as partidas contra iniciantes, perdeu todas as partidas contra jogadores avançados e avançados+, e venceu 55% das partidas contra jogadores intermediários. Isso indica que o agente atingiu o nível de um jogador humano intermediário em rallies de tênis de mesa.
As razões pelas quais o robô não consegue vencer jogadores avançados são limitações físicas e técnicas, incluindo velocidade de reação, capacidade de detecção da câmera, processamento de rotação, etc., que são difíceis de modelar com precisão em um ambiente simulado.
Jogar contra o robô também é atraente
Os participantes do estudo relataram que gostaram muito de jogar contra o robô e deram notas altas ao robô em termos de "diversão" e "engajamento". Eles também expressaram unanimemente que estariam "muito dispostos" a jogar contra o robô novamente. Durante o tempo livre, eles jogaram em média 4 minutos e 6 segundos com o robô em um período de 5 minutos.
O robô não é bom em lidar com backspin
Os participantes mais habilidosos mencionaram que o robô não era bom em lidar com backspin. Para testar essa observação, os pesquisadores plotaram a taxa de acerto do robô com base na rotação da bola, e os resultados mostraram que a taxa de acerto do robô diminuía significativamente quando enfrentava mais bolas com backspin. Essa deficiência é parcialmente devido ao robô evitar colisões com a mesa ao lidar com bolas baixas, e em segundo lugar, porque determinar a rotação da bola em tempo real é realmente difícil.