Robô de tênis de mesa com IA derrota humanos, atingindo o nível de jogador intermediário

DeepMind lança nova criação de inteligência artificial

Superando as expectativas, este robô já atingiu um nível intermediário.

Após ver seu desempenho, os internautas expressaram: ### Posso comprar? Quero um.

Capaz de lidar com confrontos inesperados com tranquilidade

O tênis de mesa é um esporte que exige muito em termos de condicionamento físico, estratégia, habilidade e outros aspectos. Os humanos geralmente precisam de anos de treinamento para dominá-lo.

Portanto, diferentemente de jogos puramente estratégicos como xadrez ou go, o tênis de mesa se torna um importante benchmark para testar as habilidades gerais de um robô, como movimentos em alta velocidade, controle preciso em tempo real, tomada de decisões estratégicas, design de sistemas, etc.

Por exemplo, o robô precisa se mover rapidamente para diferentes posições da bola; diante de uma bola claramente fora, o robô deve optar por não rebatê-la.

A equipe encontrou 29 jogadores de tênis de mesa de diferentes níveis de habilidade para competir, incluindo iniciantes, intermediários, avançados e acima de avançados.

Humanos e robôs jogaram 3 partidas, seguindo as regras padrão do tênis de mesa. (No entanto, como o robô não pode sacar, todo o jogo foi iniciado com saques humanos)

Antes disso, já havia pesquisas sobre robôs de tênis de mesa, mas o diferencial do robô do Google é que ele pode competir de forma abrangente com humanos que nunca viu antes.

Ele pode se adaptar rapidamente aos vários estilos de jogo dos humanos.

Por exemplo, veja este jogador: no início da partida, o robô estava claramente ainda em processo de adaptação, e o humano venceu por 9 a 2.

Mas logo no próximo set, o robô obviamente se familiarizou com o estilo do oponente, sempre acompanhando de perto a pontuação. Ambos os lados jogaram de igual para igual.

No final, entre todos os oponentes, o robô venceu todas as partidas contra iniciantes e teve uma taxa de vitória de 55% contra jogadores intermediários.

Embora atualmente o robô ainda não seja capaz de vencer jogadores avançados, pode-se ver pelos vários feedbacks dos humanos que todos gostaram muito de jogar com este robô.

Como dominar o pequeno tênis de mesa?

Antes de apresentar o método, vamos dar uma olhada na configuração de hardware do robô de tênis de mesa.

O corpo principal usa um braço robótico ABB 1100 de 6 graus de liberdade da empresa suíça, montado em dois trilhos lineares Festo, permitindo que se mova no plano. O trilho de movimento lateral tem 4 metros de comprimento e o trilho de movimento longitudinal tem 2 metros.

O braço robótico está equipado com uma empunhadura de raquete impressa em 3D e uma raquete coberta com borracha de grão curto.

Como essa pequena coisa aprendeu a jogar tênis de mesa?

Em resumo, foi usado um método de treinamento híbrido combinando ### aprendizagem por reforço e ### aprendizagem por imitação.

A equipe projetou uma arquitetura de estratégia em camadas e modular, com o Agente incluindo uma biblioteca de habilidades de baixo nível (LLC) e um controlador de alto nível (HLC).

O LLC é um conjunto de políticas especializadas, cada uma treinada para executar ### habilidades específicas de tênis de mesa, como rebatidas de forehand, backhand, saque, etc. Esses LLCs usam arquitetura CNN e são treinados através de algoritmos de estratégias evolutivas em um ambiente de simulação.

O processo de treinamento utilizou um conjunto de dados de estados da bola coletados do mundo real para garantir a consistência entre o ambiente simulado e o real.

O HLC é responsável por ### selecionar o LLC mais apropriado a cada jogada recebida.

Inclui vários componentes: política de estilo, para escolher entre forehand ou backhand; classificador de rotação, para identificar o tipo de rotação da bola recebida; descritores de habilidades LLC, que descrevem as capacidades de cada LLC; um conjunto de políticas heurísticas para shortlist LLCs candidatos com base na situação atual.

O HLC também usa aprendizagem online de preferências LLC para se adaptar às características do oponente e compensar as diferenças entre simulação e realidade.

Especificamente, a equipe primeiro coletou uma pequena quantidade de dados de jogos humanos, definiu condições iniciais de tarefas, então treinou um Agente em um ambiente simulado usando aprendizagem por reforço, e depois implantou a política de forma zero-shot no mundo real.

Eles usaram o motor de física MuJoCo para simular com precisão a dinâmica da bola e do robô, incluindo resistência do ar, efeito Magnus, etc., e projetaram uma "correção" de topspin, alternando diferentes parâmetros de raquete na simulação para imitar os efeitos de topspin e backspin do mundo real.

À medida que o Agente e os humanos continuam jogando, mais condições de tarefas de treinamento podem ser geradas, e o ciclo de treinamento-implantação é repetido.

As habilidades do robô melhoram gradualmente, e os jogos se tornam progressivamente mais complexos, mas ainda baseados em condições de tarefas do mundo real. Após coletar dados, o robô também pode descobrir suas próprias deficiências e posteriormente compensá-las através de treinamento contínuo no ambiente simulado.

Através deste método, as habilidades do robô podem ser automaticamente iteradas e melhoradas em um processo cíclico combinando simulação e realidade.

Além disso, este robô também pode rastrear o comportamento e estilo de jogo do oponente para se adaptar a diferentes adversários, como para onde o oponente tende a rebater a bola na mesa.

Assim, ele pode tentar diferentes técnicas, monitorar sua própria taxa de sucesso e ajustar sua estratégia em tempo real.

Nos experimentos de jogo contra humanos, a equipe também descobriu uma fraqueza deste robô: ele não é bom em lidar com bolas com backspin.

De acordo com a estimativa da rotação da bola,