Robot de ping-pong con IA vence a humanos alcanzando nivel de jugador intermedio

DeepMind lanza una nueva creación de inteligencia artificial

Superando las expectativas, este robot ya ha alcanzado un nivel intermedio.

Después de ver su desempeño, los internautas expresaron: ### ¿Se puede comprar? Lo quiero.

También puede manejar encuentros inesperados con calma

El tenis de mesa es un deporte que requiere un alto nivel de habilidad física, estrategia y técnica en varios aspectos, y los humanos a menudo necesitan años de entrenamiento para dominarlo.

Por lo tanto, a diferencia de juegos puramente estratégicos como el ajedrez o el go, el tenis de mesa se ha convertido en un importante punto de referencia para probar las habilidades integrales de los robots, como el movimiento de alta velocidad, el control preciso en tiempo real, la toma de decisiones estratégicas, el diseño de sistemas, etc.

Por ejemplo, frente a diferentes puntos de caída de la pelota, el robot necesita moverse rápidamente; frente a una pelota claramente fuera, el robot debería elegir no devolverla.

El equipo encontró a 29 jugadores de tenis de mesa de diferentes niveles de habilidad para competir, incluyendo principiantes, intermedios, avanzados y superiores.

Los humanos y el robot jugaron 3 partidos, siguiendo las reglas estándar del tenis de mesa. (Sin embargo, como el robot no puede sacar, todo el juego fue servido por los humanos)

Antes de esto, ya había investigaciones sobre robots de tenis de mesa, pero lo especial del robot de Google esta vez es que puede competir de manera integral con humanos que nunca ha visto antes.

Puede adaptarse rápidamente a los diversos estilos de juego de los humanos.

Por ejemplo, mira a este jugador, al comienzo del partido el robot obviamente todavía estaba en proceso de adaptación, y el humano derrotó al robot con un gran margen de 9 a 2.

Pero justo en el siguiente juego, el robot obviamente se familiarizó con el estilo del oponente, siempre siguiendo de cerca el marcador. Ambos lados jugaron de ida y vuelta.

Finalmente, entre todos los oponentes, el robot ganó todos los partidos contra principiantes y tuvo una tasa de victoria del 55% en los partidos contra jugadores intermedios.

Aunque actualmente el robot aún no puede vencer a jugadores avanzados, se puede ver en los diversos comentarios de los humanos que a todos les gusta jugar con este robot.

¿Cómo dominar el pequeño tenis de mesa?

Antes de introducir el método, echemos un vistazo a la configuración de hardware del robot de tenis de mesa.

El cuerpo principal utiliza un brazo robótico ABB 1100 de 6 grados de libertad de la empresa suiza, montado en dos rieles lineales Festo, lo que le permite moverse en un plano. El riel de movimiento horizontal mide 4 metros de largo y el riel de movimiento vertical mide 2 metros.

El brazo robótico está equipado con un mango de raqueta impreso en 3D y una raqueta cubierta con goma de partículas cortas.

¿Cómo aprendió este pequeño dispositivo a jugar al tenis de mesa?

En resumen, se utilizó un método de entrenamiento híbrido que combina ### aprendizaje por refuerzo y ### aprendizaje por imitación.

El equipo diseñó una arquitectura de estrategia jerárquica y modular, con un Agente que incluye una biblioteca de habilidades de bajo nivel (LLC) y un controlador de alto nivel (HLC).

El LLC es un conjunto de estrategias especializadas, cada una entrenada para realizar ### habilidades específicas de tenis de mesa, como golpes de derecha, revés, servicio, etc. Estos LLC utilizan una arquitectura CNN y se entrenan mediante algoritmos de estrategias evolutivas en un entorno de simulación.

El proceso de entrenamiento utilizó un conjunto de datos de estados de bola recopilados del mundo real para garantizar la consistencia entre el entorno simulado y el real.

El HLC es responsable de ### seleccionar el LLC más apropiado en cada llegada de la pelota.

Incluye varios componentes: una estrategia de estilo para elegir entre derecha o revés; un clasificador de rotación para identificar el tipo de rotación de la pelota entrante; descriptores de habilidades LLC que describen las capacidades de cada LLC; y un conjunto de estrategias heurísticas para preseleccionar LLC candidatos según la situación actual.

El HLC también utiliza preferencias de LLC aprendidas en línea para adaptarse a las características del oponente y compensar las diferencias entre la simulación y la realidad.

Específicamente, el equipo primero recopiló una pequeña cantidad de datos de partidos humanos, estableció condiciones iniciales de tareas, luego entrenó un Agente en un entorno simulado usando aprendizaje por refuerzo, y finalmente desplegó la estrategia en el mundo real sin muestras.

Utilizaron el motor físico MuJoCo para simular con precisión la dinámica de la pelota y el robot, incluyendo resistencia del aire, efecto Magnus, etc., y diseñaron un "ajuste" para pelotas con efecto, cambiando diferentes parámetros de la raqueta en la simulación para imitar los efectos de topspin y backspin del mundo real.

En el proceso de juego continuo entre el Agente y los humanos, se pueden generar más condiciones de tareas de entrenamiento, y repetir el ciclo de entrenamiento-despliegue.

Las habilidades del robot mejoran gradualmente, y los partidos se vuelven cada vez más complejos, pero siguen basándose en condiciones de tareas del mundo real. Después de recopilar datos, el robot también puede descubrir sus propias deficiencias, y luego compensarlas mediante entrenamiento continuo en el entorno simulado.

A través de este método, las habilidades del robot pueden mejorarse automáticamente en un proceso cíclico que combina simulación y realidad.

Además, este robot también puede rastrear el comportamiento y estilo de juego del oponente para adaptarse a diferentes oponentes, como la tendencia del oponente a devolver la pelota a una determinada parte de la mesa.

Esto le permite probar diferentes técnicas, monitorear su tasa de éxito y ajustar su estrategia en tiempo real.

En los experimentos de juego contra humanos, el equipo también descubrió una debilidad de este robot: no es bueno manejando pelotas con efecto backspin.

Según la estimación de la rotación de la pelota,