Os pesquisadores da DeepMind revelaram o primeiro robô de IA capaz de competir contra jogadores amadores de tênis de mesa humanos. O sistema combina um braço robótico industrial ABB IRB 1100 com o software de IA personalizado da DeepMind. Embora os profissionais humanos ainda o superem, o sistema demonstra a capacidade das máquinas de tomar decisões em frações de segundo e se adaptar em tarefas físicas complexas.
O tênis de mesa tem sido crucial para avaliar braços robóticos há uma década devido aos seus requisitos de velocidade, reflexos e estratégia.
Os pesquisadores escreveram em seu artigo preliminar no arXiv: "Este é o primeiro agente robótico capaz de competir em nível humano em um esporte físico, representando outro marco na aprendizagem e controle robótico."
O agente robótico de tênis de mesa sem nome (nome sugerido "AlphaPong") foi desenvolvido por uma equipe de pesquisa incluindo David B. D'Ambrosio, Saminda Abeyruwan e Laura Graesser. Ele teve um bom desempenho contra jogadores de diferentes níveis de habilidade. Em um estudo envolvendo 29 participantes, o robô de IA alcançou uma taxa de vitória de 45%, demonstrando habilidades sólidas de nível amador.
Notavelmente, ele venceu 100% das partidas contra iniciantes e 55% contra jogadores intermediários. No entanto, perdeu todas as partidas contra jogadores avançados.
A configuração física do robô inclui o IRB 1100, um braço robótico com 6 graus de liberdade montado em duas trilhas lineares para movimento no plano 2D. Câmeras de alta velocidade rastreiam a posição da bola, enquanto um sistema de captura de movimento observa os movimentos da raquete do oponente humano.
Os pesquisadores da DeepMind desenvolveram uma abordagem de dois níveis para controlar o braço robótico, permitindo que ele execute táticas específicas de tênis de mesa enquanto ajusta sua estratégia em tempo real com base no estilo de jogo de cada oponente. Essa adaptabilidade permite que ele compita com qualquer jogador de nível amador sem treinamento específico para diferentes oponentes.
A arquitetura do sistema combina controladores de habilidades de baixo nível (treinados para executar técnicas específicas de tênis de mesa) com um tomador de decisões estratégicas de alto nível (um sistema de IA mais complexo analisando o estado do jogo, adaptando-se aos estilos dos oponentes e selecionando estratégias de habilidades de baixo nível apropriadas para cada bola recebida).
Uma inovação-chave é o método de treinamento do modelo de IA, usando aprendizagem por reforço em ambientes físicos simulados enquanto incorpora exemplos do mundo real como dados de treinamento. Essa técnica permitiu que o robô aprendesse com cerca de 17.500 trajetórias reais de bolas de tênis de mesa.
Os pesquisadores usaram um processo iterativo para refinar as habilidades do robô, começando com um pequeno conjunto de dados de partidas entre humanos e robôs e, em seguida, fazendo a IA competir contra oponentes reais. Cada partida gerou novos dados sobre trajetórias de bola e estratégias humanas, que foram alimentados de volta às simulações para treinamento adicional.
O processo foi repetido por sete ciclos, permitindo que o robô se adaptasse continuamente a oponentes cada vez mais habilidosos e estilos de jogo diversos. Na rodada final, a IA havia aprendido com mais de 14.000 rallies e 3.000 saques, acumulando um extenso conhecimento de tênis de mesa e reduzindo a lacuna entre simulação e realidade.
Curiosamente, a Nvidia tem experimentado sistemas de física simulada semelhantes. Seu sistema Eureka permite que modelos de IA aprendam rapidamente a controlar braços robóticos em espaços simulados em vez do mundo real.
Além das conquistas técnicas, o estudo do Google explorou a experiência de jogadores humanos competindo contra oponentes de IA. Surpreendentemente, mesmo ao perder para o agente robótico de tênis de mesa, os jogadores humanos relataram gostar da experiência.
Os pesquisadores observaram: "Os jogadores humanos relataram que jogar contra o robô era 'divertido e envolvente' em todos os grupos de habilidade e taxas de vitória." Essa resposta positiva sugere potenciais aplicações para IA em treinamento esportivo e entretenimento.
No entanto, o sistema tem limitações, apresentando desempenho ruim com bolas extremamente rápidas e altas, dificuldade em detectar efeito severo na bola e fraqueza no jogo de backhand.
A equipe de pesquisa do Google DeepMind está trabalhando para abordar essas deficiências. Eles propõem pesquisar algoritmos de controle avançados e otimizações de hardware, possivelmente incluindo modelos preditivos para trajetória da bola e protocolos de comunicação mais rápidos entre os sensores e atuadores do robô.
Os pesquisadores enfatizam que, à medida que os resultados são refinados, eles acreditam que o sistema poderia potencialmente competir com jogadores de tênis de mesa de alto nível no futuro. A DeepMind tem ampla experiência no desenvolvimento de modelos de IA que derrotam jogadores humanos, incluindo AlphaZero e AlphaGo no jogo de Go.
Os pesquisadores também afirmam que o impacto deste "prodígio" robótico de tênis de mesa se estende além do tênis de mesa. As tecnologias desenvolvidas para este projeto poderiam ser aplicadas a várias tarefas robóticas que requerem reações rápidas e adaptação ao comportamento humano imprevisível, incluindo manufatura e saúde.