Los investigadores de DeepMind han presentado el primer robot de IA capaz de competir contra jugadores de tenis de mesa aficionados humanos. El sistema combina un brazo robótico industrial ABB IRB 1100 con el software de IA personalizado de DeepMind. Aunque los profesionales humanos aún lo superan, el sistema demuestra la capacidad de las máquinas para tomar decisiones en fracciones de segundo y adaptarse en tareas físicas complejas.
El tenis de mesa ha sido crucial para evaluar los brazos robóticos durante una década debido a sus requisitos de velocidad, reflejos y estrategia.
Los investigadores escribieron en su artículo preliminar en arXiv: "Este es el primer agente robótico capaz de competir a nivel humano en un deporte físico, representando otro hito en el aprendizaje y control robótico".
El agente robótico de tenis de mesa sin nombre (nombre sugerido "AlphaPong") fue desarrollado por un equipo de investigación que incluye a David B. D'Ambrosio, Saminda Abeyruwan y Laura Graesser. Tuvo un buen desempeño contra jugadores de diversos niveles de habilidad. En un estudio con 29 participantes, el robot de IA logró una tasa de victorias del 45%, demostrando sólidas habilidades de nivel aficionado.
Notablemente, ganó el 100% de los partidos contra principiantes y el 55% contra jugadores intermedios. Sin embargo, perdió todos los partidos contra jugadores avanzados.
La configuración física del robot incluye el IRB 1100, un brazo robótico de 6 grados de libertad montado en dos pistas lineales para movimiento en plano 2D. Cámaras de alta velocidad rastrean la posición de la pelota, mientras que un sistema de captura de movimiento observa los movimientos de la raqueta del oponente humano.
Los investigadores de DeepMind desarrollaron un enfoque de dos niveles para impulsar el brazo robótico, permitiéndole ejecutar tácticas específicas de tenis de mesa mientras ajusta su estrategia en tiempo real según el estilo de juego de cada oponente. Esta adaptabilidad le permite competir con cualquier jugador de nivel aficionado sin entrenamiento específico para diferentes oponentes.
La arquitectura del sistema combina controladores de habilidades de bajo nivel (entrenados para ejecutar técnicas específicas de tenis de mesa) con un tomador de decisiones estratégicas de alto nivel (un sistema de IA más complejo que analiza el estado del juego, se adapta a los estilos de los oponentes y selecciona estrategias de habilidades de bajo nivel apropiadas para cada pelota entrante).
Una innovación clave es el método de entrenamiento del modelo de IA, utilizando aprendizaje por refuerzo en entornos físicos simulados mientras incorpora ejemplos del mundo real como datos de entrenamiento. Esta técnica permitió al robot aprender de aproximadamente 17,500 trayectorias reales de pelotas de tenis de mesa.
Los investigadores utilizaron un proceso iterativo para refinar las habilidades del robot, comenzando con un pequeño conjunto de datos de partidos humano-robot y luego haciendo que la IA compitiera contra oponentes reales. Cada partido generó nuevos datos sobre trayectorias de pelotas y estrategias humanas, que se retroalimentaron en simulaciones para un entrenamiento adicional.
El proceso se repitió durante siete ciclos, permitiendo al robot adaptarse continuamente a oponentes cada vez más hábiles y estilos de juego diversos. En la ronda final, la IA había aprendido de más de 14,000 rallies y 3,000 servicios, acumulando un extenso conocimiento de tenis de mesa y cerrando la brecha entre simulación y realidad.
Curiosamente, Nvidia ha estado experimentando con sistemas de física simulada similares. Su sistema Eureka permite a los modelos de IA aprender rápidamente a controlar brazos robóticos en espacios simulados en lugar del mundo real.
Más allá de los logros técnicos, el estudio de Google exploró la experiencia de los jugadores humanos compitiendo contra oponentes de IA. Sorprendentemente, incluso al perder contra el agente robótico de tenis de mesa, los jugadores humanos informaron disfrutar de la experiencia.
Los investigadores señalaron: "Los jugadores humanos informaron que jugar contra el robot era 'divertido y atractivo' en todos los grupos de habilidad y tasas de victoria". Esta respuesta positiva sugiere posibles aplicaciones de la IA en entrenamiento deportivo y entretenimiento.
Sin embargo, el sistema tiene limitaciones, teniendo un mal desempeño con pelotas extremadamente rápidas y altas, dificultades para detectar el efecto severo de la pelota y mostrando debilidad en el juego de revés.
El equipo de investigación de Google DeepMind está trabajando para abordar estas deficiencias. Proponen investigar algoritmos de control avanzados y optimizaciones de hardware, posiblemente incluyendo modelos predictivos para la trayectoria de la pelota y protocolos de comunicación más rápidos entre los sensores y actuadores del robot.
Los investigadores enfatizan que a medida que se refinen más los resultados, creen que el sistema podría potencialmente competir con jugadores de tenis de mesa de alto nivel en el futuro. DeepMind tiene una amplia experiencia en el desarrollo de modelos de IA que derrotan a jugadores humanos, incluyendo AlphaZero y AlphaGo en el juego de Go.
Los investigadores también afirman que el impacto de este "prodigio" robótico de tenis de mesa se extiende más allá del tenis de mesa. Las tecnologías desarrolladas para este proyecto podrían aplicarse a diversas tareas robóticas que requieren reacciones rápidas y adaptación al comportamiento humano impredecible, incluyendo la fabricación y la atención médica.