Methodenbeschreibung
Der Agent besteht aus einer Bibliothek von Fähigkeiten auf niedrigem Niveau und einem Controller auf hohem Niveau. Die Bibliothek der Fähigkeiten auf niedrigem Niveau konzentriert sich auf bestimmte Aspekte des Tischtennis, wie zum Beispiel Vorhand-Topspin, Rückhand-Zielen oder Vorhand-Aufschlag. Neben Trainingsstrategien werden auch offline und online Informationen über Stärken, Schwächen und Grenzen jeder Fähigkeit auf niedrigem Niveau gesammelt und gespeichert. Der Controller auf hohem Niveau, der für die Koordination der Fähigkeiten auf niedrigem Niveau verantwortlich ist, wählt die beste Fähigkeit basierend auf aktuellen Spielstatistiken und Fähigkeitsbeschreibungen aus.
Darüber hinaus wurden einige Daten von Mensch-gegen-Mensch-Spielen als Ausgangspunkt für die anfänglichen Aufgabenbedingungen gesammelt. Der Datensatz enthält Informationen zu Position, Geschwindigkeit und Rotation. Anschließend wurde der Agent in einer simulierten Umgebung mit Reinforcement Learning trainiert und unter Verwendung bestehender Techniken nahtlos auf echte Hardware übertragen.
Der Agent spielt mit Menschen, um mehr Trainingsdaten zu generieren. Mit dem kontinuierlichen Lernen des Roboters werden die Spielstandards immer komplexer, sodass der Agent zunehmend komplexere Aktionen erlernt. Dieser gemischte "Simulation-Realität"-Zyklus schafft ein automatisches Lehrsystem, das die Fähigkeiten des Roboters im Laufe der Zeit kontinuierlich verbessert.
Hierarchische Kontrolle
Die hierarchische Kontrolle umfasst hauptsächlich folgende Teile:
- Tischtennis-Spielweise: Der High-Level Controller (HLC) entscheidet zunächst, welche Spielweise (Vorhand oder Rückhand) verwendet wird.
- Anpassung: Basierend auf Statistiken aus Spielen gegen Gegner werden die Präferenzen (H-Werte) jedes HLC online aktualisiert.
- Auswahl der effektivsten Fähigkeit: Der HLC wählt aus den in Frage kommenden LLCs basierend auf den angepassten H-Werten aus.
- Aktualisierung: H-Werte und Gegnerstatistiken werden kontinuierlich aktualisiert, bis das Spiel endet.
Ergebnisse
Die Forscher verglichen den Agenten mit 29 Tischtennisspielern unterschiedlicher Niveaus, darunter Anfänger, Mittelstufe, Fortgeschrittene und Fortgeschrittene+. Die menschlichen Spieler spielten drei Spiele gegen den Roboter nach Standard-Tischtennisregeln, mit leichten Änderungen, da der Roboter nicht aufschlagen konnte.
Gegen alle Gegner gewann der Roboter 45% der Matches und 46% der einzelnen Spiele. Aufgeschlüsselt nach Fähigkeitsniveau gewann der Roboter alle Spiele gegen Anfänger, verlor alle Spiele gegen Fortgeschrittene und Fortgeschrittene+ und gewann 55% der Spiele gegen Spieler der Mittelstufe. Dies zeigt, dass der Agent in Tischtennis-Rallyes das Niveau eines menschlichen Spielers der Mittelstufe erreicht hat.
Der Roboter konnte fortgeschrittene Spieler aufgrund physischer und technischer Einschränkungen nicht schlagen, einschließlich Reaktionsgeschwindigkeit, Kamerawahrnehmung und Rotationsverarbeitung, die in einer simulierten Umgebung schwer genau zu modellieren sind.
Spielen gegen den Roboter ist auch sehr attraktiv
Die Studienteilnehmer gaben an, dass sie es sehr genossen, mit dem Roboter zu spielen, und bewerteten den Roboter in Bezug auf "Spaß" und "Anziehungskraft" sehr hoch. Sie stimmten auch einheitlich zu, dass sie "sehr gerne" wieder mit dem Roboter spielen würden. In ihrer Freizeit spielten sie durchschnittlich 4 Minuten und 6 Sekunden mit dem Roboter in einem 5-Minuten-Zeitraum.
Der Roboter ist nicht gut im Umgang mit Unterschnitt
Die geschicktesten Teilnehmer erwähnten, dass der Roboter nicht gut mit Unterschnitt umgehen konnte. Um diese Beobachtung zu testen, zeichneten die Forscher die Landungsrate des Roboters basierend auf der Ballrotation auf. Die Ergebnisse zeigten, dass die Landungsrate des Roboters bei mehr Unterschnitt deutlich abnahm. Diese Schwäche ist teilweise darauf zurückzuführen, dass der Roboter beim Umgang mit niedrigen Bällen versucht, Kollisionen mit dem Tisch zu vermeiden, und zum anderen darauf, dass es tatsächlich schwierig ist, die Ballrotation in Echtzeit zu bestimmen.