Robot de ping-pong IA bat l'humain, atteignant le niveau d'un joueur intermédiaire

DeepMind lance une nouvelle création d'intelligence artificielle

Dépassant les attentes, ce robot a déjà atteint un niveau intermédiaire.

Après avoir vu sa performance, les internautes ont déclaré : ### Peut-on l'acheter ? Je le veux.

Capable de gérer sereinement les rencontres imprévues

Le tennis de table est un sport qui exige beaucoup sur le plan physique, stratégique et technique, et les humains doivent souvent s'entraîner pendant de nombreuses années pour le maîtriser.

Par conséquent, contrairement aux jeux purement stratégiques comme les échecs ou le go, le tennis de table devient un important point de référence pour tester les capacités globales des robots, telles que les mouvements à grande vitesse, le contrôle précis en temps réel, la prise de décision stratégique, la conception de systèmes, etc.

Par exemple, face à différents points de chute de la balle, le robot doit se déplacer rapidement ; face à une balle clairement hors-jeu, le robot devrait choisir de ne pas la jouer.

L'équipe a trouvé 29 joueurs de tennis de table de différents niveaux de compétence pour participer aux matchs, y compris des débutants, des joueurs de niveau intermédiaire, avancé et au-delà.

Les humains ont joué 3 matchs contre le robot, suivant les règles standard du tennis de table. (Cependant, comme le robot ne peut pas servir, tous les services ont été effectués par les humains)

Auparavant, il y avait déjà eu des recherches sur les robots de tennis de table, mais ce qui rend le robot de Google spécial, c'est sa capacité à engager une compétition complète avec des humains qu'il n'a jamais vus auparavant.

Il peut s'adapter rapidement aux différents styles de jeu des humains.

Par exemple, regardez ce joueur, au début du match, le robot est clairement encore en phase d'adaptation, l'humain bat le robot avec un score important de 9 à 2.

Mais dès le set suivant, le robot s'est manifestement familiarisé avec le style de l'adversaire, suivant toujours de près le score. Les deux parties jouent de manière équilibrée.

Finalement, parmi tous les adversaires, le robot a gagné tous les matchs contre les débutants et a obtenu un taux de victoire de 55% contre les joueurs de niveau intermédiaire.

Bien que le robot ne soit pas encore capable de battre les joueurs avancés, on peut voir dans les différents retours des humains que tout le monde aime jouer avec ce robot.

Comment maîtriser le petit tennis de table ?

Avant de présenter la méthode, jetons un coup d'œil à la configuration matérielle du robot de tennis de table.

Le corps principal utilise un bras robotique ABB 1100 à 6 degrés de liberté de la société suisse, monté sur deux rails linéaires Festo, lui permettant de se déplacer dans un plan. Le rail de déplacement horizontal mesure 4 mètres de long, le rail vertical 2 mètres.

Le bras robotique est équipé d'une poignée de raquette imprimée en 3D et d'une raquette recouverte d'un revêtement à picots courts.

Comment ce petit appareil a-t-il appris à jouer au tennis de table ?

En résumé, il utilise une méthode d'entraînement hybride combinant ### apprentissage par renforcement et ### apprentissage par imitation.

L'équipe a conçu une architecture de stratégie hiérarchique et modulaire, l'agent comprenant une bibliothèque de compétences de bas niveau (LLC) et un contrôleur de haut niveau (HLC).

Le LLC est un ensemble de stratégies spécialisées, chacune étant entraînée pour exécuter ### des compétences spécifiques au tennis de table, comme les coups droits, les revers, les services, etc. Ces LLC utilisent une architecture CNN et sont entraînées à l'aide d'algorithmes de stratégies évolutives dans un environnement de simulation.

Le processus d'entraînement utilise un ensemble de données d'états de balle collectées dans le monde réel pour assurer la cohérence entre l'environnement simulé et le monde réel.

Le HLC est responsable de ### la sélection du LLC le plus approprié à chaque arrivée de balle.

Il comprend plusieurs composants : une stratégie de style pour choisir entre coup droit et revers ; un classificateur de rotation pour identifier le type de rotation de la balle entrante ; un descripteur de compétences LLC décrivant les capacités de chaque LLC ; un ensemble de stratégies heuristiques pour présélectionner les LLC candidats en fonction de la situation actuelle.

Le HLC utilise également l'apprentissage en ligne des préférences LLC pour s'adapter aux caractéristiques de l'adversaire et combler l'écart entre la simulation et la réalité.

Plus précisément, l'équipe a d'abord collecté une petite quantité de données de matchs humains, défini les conditions initiales des tâches, puis entraîné un agent dans un environnement simulé en utilisant l'apprentissage par renforcement, avant de déployer la stratégie dans le monde réel sans échantillon.

Ils ont utilisé le moteur physique MuJoCo pour simuler avec précision la dynamique de la balle et du robot, y compris la résistance de l'air, l'effet Magnus, etc., et ont conçu une "correction" pour les balles à effet lifté en changeant les paramètres de la raquette dans la simulation pour reproduire les effets liftés et coupés du monde réel.

Au cours du processus de jeu continu entre l'agent et les humains, davantage de conditions de tâches d'entraînement peuvent être générées, et le cycle entraînement-déploiement peut être répété.

Les compétences du robot s'améliorent progressivement, les matchs deviennent de plus en plus complexes, mais restent basés sur les conditions de tâches du monde réel. Après avoir collecté les données, le robot peut identifier ses propres lacunes et les combler par un entraînement continu dans l'environnement simulé.

Grâce à cette méthode, les compétences du robot peuvent s'améliorer automatiquement dans un processus cyclique combinant simulation et réalité.

De plus, ce robot peut suivre le comportement et le style de jeu de l'adversaire pour s'adapter à différents adversaires, par exemple en identifiant la zone de la table où l'adversaire a tendance à renvoyer la balle.

Cela lui permet d'essayer différentes techniques, de surveiller son taux de réussite et d'ajuster sa stratégie en temps réel.

Lors des expériences de jeu contre des humains, l'équipe a également découvert une faiblesse de ce robot : il n'est pas doué pour gérer les balles à effet coupé.

Selon l'estimation de la rotation de la balle,