AI champion de ping-pong : Le robot de DeepMind bat les débutants humains

Introduction de la méthode

Cet agent est composé d'une bibliothèque de compétences de bas niveau et d'un contrôleur de haut niveau. La bibliothèque de compétences de bas niveau se concentre sur des aspects spécifiques du tennis de table, tels que le coup droit topspin, le revers ciblé ou le service en coup droit. En plus des stratégies d'entraînement, cette étude collecte et stocke des informations sur les avantages, les inconvénients et les limites de chaque compétence de bas niveau, hors ligne et en ligne. Le contrôleur de haut niveau, responsable de la coordination des compétences de bas niveau, sélectionne la meilleure compétence en fonction des statistiques de jeu actuelles et des descriptions des compétences.

De plus, l'étude a collecté une petite quantité de données de matchs entre humains comme conditions initiales, comprenant des informations sur la position, la vitesse et la rotation. L'agent est ensuite entraîné dans un environnement simulé en utilisant l'apprentissage par renforcement, et des techniques existantes sont utilisées pour déployer la stratégie de manière transparente sur le matériel réel.

L'agent joue avec des humains pour générer plus de données d'entraînement, et à mesure que le robot continue d'apprendre, les normes de jeu deviennent de plus en plus complexes, permettant à l'agent d'apprendre des actions de plus en plus complexes. Ce cycle hybride "simulation-réalité" crée un enseignement automatique, améliorant continuellement les compétences du robot au fil du temps.

Contrôle hiérarchique

Le contrôle hiérarchique comprend principalement les parties suivantes :

Style de jeu de tennis de table : le contrôleur de haut niveau (HLC) décide d'abord quel style de jeu utiliser (coup droit ou revers) ;
Ajustement : basé sur les statistiques des matchs contre l'adversaire, les préférences de chaque HLC (valeurs H) sont maintenues en ligne ;
Sélection de la compétence la plus efficace : le HLC échantillonne les LLC qualifiés en fonction des valeurs H ajustées ;
Mise à jour : les valeurs H et les statistiques de l'adversaire sont continuellement mises à jour jusqu'à la fin du match.

Résultats

Les chercheurs ont comparé cet agent à 29 joueurs de tennis de table de différents niveaux, allant des débutants aux niveaux intermédiaire, avancé et avancé+. Les joueurs humains ont joué trois matchs contre le robot selon les règles standard du tennis de table, avec de légères modifications car le robot ne peut pas servir.

Face à tous les adversaires, le robot a remporté 45% des matchs et 46% des jeux individuels. En détaillant par niveau de compétence, le robot a gagné tous les matchs contre les débutants, perdu tous les matchs contre les joueurs avancés et avancés+, et gagné 55% des matchs contre les joueurs de niveau intermédiaire. Cela indique que l'agent a atteint le niveau d'un joueur humain intermédiaire dans les échanges de tennis de table.

Le robot ne peut pas battre les joueurs avancés en raison de limitations physiques et techniques, notamment la vitesse de réaction, la capacité de détection de la caméra, le traitement de la rotation, etc., qui sont difficiles à modéliser avec précision dans un environnement simulé.

Jouer contre le robot est également attrayant

Les participants à l'étude ont déclaré avoir beaucoup apprécié jouer contre le robot et lui ont donné des notes élevées en termes de "plaisir" et d'"attrait". Ils ont également unanimement exprimé qu'ils seraient "très disposés" à jouer à nouveau contre le robot. Pendant leur temps libre, ils ont joué en moyenne 4 minutes et 6 secondes avec le robot sur une période de 5 minutes.

Le robot n'est pas doué pour les balles à effet rétro

Les participants les plus compétents ont mentionné que le robot n'était pas doué pour gérer les effets rétro. Pour tester cette observation, les chercheurs ont tracé le taux d'atterrissage du robot en fonction de la rotation de la balle. Les résultats montrent que le taux d'atterrissage du robot diminue considérablement face à plus de balles à effet rétro. Ce défaut est en partie dû au fait que le robot, lorsqu'il traite des balles basses, essaie d'éviter les collisions avec la table, et d'autre part, il est effectivement difficile de déterminer la rotation de la balle en temps réel.

Lien de référence