AI campeón de ping pong: El robot de DeepMind derrota a principiantes humanos

El primer agente robótico de tenis de mesa con capacidad de aprendizaje que alcanza el nivel de un jugador aficionado humano, demuestra un rendimiento sobresaliente en competiciones deportivas.

Introducción al método

Este agente está compuesto por una biblioteca de habilidades de bajo nivel y un controlador de alto nivel. La biblioteca de habilidades de bajo nivel se centra en aspectos específicos del tenis de mesa, como el topspin de derecha, el apuntado de revés o el saque de derecha. Además de incluir estrategias de entrenamiento, este estudio recopila y almacena información sobre las ventajas, desventajas y limitaciones de cada habilidad de bajo nivel, tanto fuera de línea como en línea. El controlador de alto nivel, responsable de coordinar las habilidades de bajo nivel, selecciona la mejor habilidad según las estadísticas actuales del juego y las descripciones de las habilidades.

Además, el estudio recopiló una pequeña cantidad de datos de partidos entre humanos y humanos como semilla para las condiciones iniciales de la tarea, incluyendo información sobre posición, velocidad y rotación. Luego, se entrenó al agente utilizando aprendizaje por refuerzo en un entorno simulado y se emplearon algunas técnicas existentes para implementar las estrategias sin problemas en hardware real.

El agente juega contra humanos para generar más datos de entrenamiento, y a medida que el robot continúa aprendiendo, los estándares del juego se vuelven cada vez más complejos, permitiendo que el agente aprenda acciones cada vez más sofisticadas. Este ciclo híbrido de "simulación-realidad" crea una enseñanza automática que mejora continuamente las habilidades del robot con el tiempo.

Control jerárquico

El control jerárquico incluye principalmente las siguientes partes:

  1. Estilo de juego de tenis de mesa: el controlador de alto nivel (HLC, high-level controller) primero decide qué estilo de juego usar (derecha o revés);
  2. Ajuste: basado en las estadísticas de los partidos contra oponentes, se mantienen en línea las preferencias (valores H) para cada HLC;
  3. Selección de la habilidad más efectiva: el HLC muestrea los LLC finalistas según los valores H ajustados;
  4. Actualización: los valores H y las estadísticas del oponente se actualizan continuamente hasta el final del partido.

Resultados

Los investigadores compararon este agente con 29 jugadores de tenis de mesa de diferentes niveles, incluyendo principiantes, intermedios, avanzados y avanzados+. Los jugadores humanos jugaron tres partidos contra el robot siguiendo las reglas estándar del tenis de mesa, con ligeras modificaciones debido a que el robot no puede sacar.

Frente a todos los oponentes, el robot ganó el 45% de los partidos (matches) y el 46% de los juegos individuales (games). Desglosado por nivel de habilidad, el robot ganó todos los partidos contra principiantes, perdió todos los partidos contra jugadores avanzados y avanzados+, y ganó el 55% de los partidos contra jugadores intermedios. Esto indica que el agente alcanzó el nivel de un jugador humano intermedio en los rallies de tenis de mesa.

Las razones por las que el robot no pudo vencer a los jugadores avanzados se deben a limitaciones físicas y técnicas, incluyendo velocidad de reacción, capacidad de detección de la cámara, manejo de la rotación, etc., aspectos difíciles de modelar con precisión en un entorno simulado.

Jugar contra el robot también es atractivo

Los participantes del estudio indicaron que disfrutaron mucho jugando contra el robot y le dieron altas calificaciones en términos de "diversión" y "atractivo". También expresaron unánimemente que estarían "muy dispuestos" a jugar contra el robot nuevamente. Durante su tiempo libre, jugaron un promedio de 4 minutos y 6 segundos con el robot en un período de 5 minutos.

El robot no es bueno con los efectos cortados

Los participantes más hábiles mencionaron que el robot no era bueno manejando los efectos cortados. Para probar esta observación, los investigadores trazaron la tasa de aterrizaje del robot según la rotación de la pelota, y los resultados mostraron que la tasa de aterrizaje del robot disminuía significativamente cuando se enfrentaba a más efectos cortados. Esta deficiencia se debe en parte a que el robot, al manejar pelotas bajas, intenta evitar colisiones con la mesa, y en segundo lugar, a la dificultad de determinar la rotación de la pelota en tiempo real.

Enlace de referencia