DeepMind stellt Tischtennis-Roboter vor: Vergleichbar mit mittleren Spielern, bewältigt umfassend verschiedene Ballwege

Wie lässt man Roboter Tischtennis spielen?

Derzeit ist Tischtennis ein großer Anziehungspunkt bei den Olympischen Spielen in Paris. Tischtennisspieler zeigen während der Wettkämpfe ein extrem hohes Niveau an körperlicher Fitness, schnellen Bewegungen, präziser Ballkontrolle und übermenschlicher Geschicklichkeit.

Aus diesem Grund nutzen Forscher seit den 1980er Jahren Tischtennis als Benchmark für Roboter. Sie haben viele Tischtennis-Roboter entwickelt und Fortschritte in Schlüsselbereichen wie dem Zurückschlagen des Balls auf die gegnerische Seite, dem Treffen von Zielpositionen, dem Schmettern, dem kooperativen Spiel und vielen anderen Aspekten des Tischtennis erzielt. Bisher hat jedoch noch kein Roboter ein vollständiges Tischtennisspiel gegen einen unbekannten menschlichen Gegner absolviert.

In dieser Studie erreichte das Google DeepMind-Team durch eine hierarchische und modulare Strategiearchitektur, iterative Definition der Aufgabenverteilung, Sim-to-Sim-Adaptionsschicht, Domänenrandomisierung, Echtzeit-Anpassung an unbekannte Gegner und Hardware-Implementierung eine Leistung auf Amateurniveau in Tischtenniswettkämpfen zwischen Robotern und menschlichen Spielern.

1. Hierarchische und modulare Strategiearchitektur basierend auf einer Fähigkeitenbibliothek

Low-Level-Controller (LLC): Diese Bibliothek enthält verschiedene Tischtennisfähigkeiten wie Vorhand-Angriff, Rückhand-Positionierung, Vorhand-Aufschlag usw. Jeder LLC ist eine eigenständige Strategie, die sich auf das Training einer bestimmten Fähigkeit konzentriert. Diese LLCs werden durch neuronale Netze gelernt und mit der MuJoCo-Physik-Engine simuliert trainiert.

High-Level-Controller (HLC): Der HLC ist dafür verantwortlich, den am besten geeigneten LLC basierend auf der aktuellen Spielsituation und den Fähigkeiten des Gegners auszuwählen. Er besteht aus folgenden Modulen:

Stilauswahlstrategie: Diese Strategie wählt zwischen Vorhand und Rückhand basierend auf der Art des ankommenden Balls (Aufschlag oder Angriff).

Rotationsklassifikator: Dieser Klassifikator bestimmt, ob der ankommende Ball Topspin oder Backspin hat.

LLC-Fähigkeitsdeskriptoren: Diese Deskriptoren zeichnen die Leistungsmetriken jedes LLC unter verschiedenen Ballbedingungen auf, wie z.B. Trefferquote und Ballplatzierung.

Strategieauswahlmodul: Dieses Modul generiert eine Kandidatenliste von LLCs basierend auf LLC-Fähigkeitsdeskriptoren, Spielstatistiken und Gegnerfähigkeiten.

LLC-Präferenz (H-Wert): Dieses Modul verwendet einen Gradienten-Bandit-Algorithmus, um die Präferenzwerte für jeden LLC online zu lernen und wählt den endgültigen LLC basierend auf diesen Präferenzwerten aus.

2. Techniken zur Implementierung von Zero-Shot-Sim-to-Real

Iterative Definition der Aufgabenverteilung: Diese Methode sammelt anfängliche Ballzustandsdaten aus Mensch-Mensch-Spielen und trainiert LLCs und HLCs in einer simulierten Umgebung. Dann werden die in der Simulation generierten Trainingsdaten zum realen Weltdatensatz hinzugefügt und der Prozess wiederholt, um die Trainingsaufgabenverteilung schrittweise zu verfeinern.

Sim-to-Sim-Adaptionsschicht: Um Probleme aufgrund von Unterschieden in den Modellparametern für Top- und Backspin-Bälle in der simulierten Umgebung zu lösen, schlägt das Paper zwei Lösungen vor: Rotationsregularisierung und Sim-to-Sim-Adaptionsschicht. Die Rotationsregularisierung löst das Problem durch Anpassung des LLC-Trainingsdatensatzes, während die Sim-to-Sim-Adaptionsschicht FiLM-Schichten verwendet, um die Beziehung zwischen Top- und Backspin-Bällen zu lernen.

Domänenrandomisierung: Während des Trainings randomisiert das Paper Parameter wie Beobachtungsrauschen, Verzögerungen, Tisch- und Schlägerdämpfung und Reibung in der simulierten Umgebung, um Unsicherheiten in der realen Welt zu simulieren.

3. Echtzeit-Anpassung an unbekannte Gegner

Echtzeit-Tracking von Spielstatistiken: Der HLC verfolgt Spielstatistiken in Echtzeit, wie z.B. Punkte und Fehler des Roboters und des Gegners, und passt die Präferenzwerte der LLCs basierend auf diesen Daten an, um sich an Änderungen des Gegners anzupassen.

Online-Lernen von LLC-Präferenzen: Durch den Gradienten-Bandit-Algorithmus kann der HLC die Präferenzwerte für jeden LLC online lernen und basierend auf den Schwächen des Gegners geeignetere LLCs auswählen.

Das Forschungsteam sammelte eine kleine Menge an Mensch-zu-Mensch-Spieldaten, um die Aufgabenbedingungen zu initialisieren. Dann wurde ein Agent mit Reinforcement Learning (RL) in der Simulation trainiert und mit verschiedenen Techniken Zero-Shot auf echte Hardware übertragen. Dieser Agent spielte gegen menschliche Spieler, um mehr Trainingsaufgabenbedingungen zu generieren, und dann wurde der Trainings-Deployment-Zyklus wiederholt. Mit fortschreitendem Roboter wurden die Spielstandards komplexer, blieben aber weiterhin auf realen Aufgabenbedingungen basiert. Dieser hybride Simulations-Realitäts-Zyklus schuf einen automatisierten Aufgabenlehrplan, der die Fähigkeiten des Roboters im Laufe der Zeit verbesserte.

Wie gut spielt er?

Um das Fähigkeitsniveau des Agenten zu bewerten, spielte der Roboter Wettkampfspiele gegen 29 Tischtennisspieler unterschiedlicher Fähigkeitsstufen - Anfänger, Mittelstufe, Fortgeschrittene und Fortgeschrittene+, die von professionellen Tischtennistrainern bestimmt wurden.

Gegen alle Gegner gewann der Roboter 45% der Spiele und 46% der einzelnen Sätze. Aufgeschlüsselt nach Fähigkeitsniveau zeigt sich, dass der Roboter alle Spiele gegen Anfänger gewann, alle Spiele gegen fortgeschrittene und fortgeschrittene+ Spieler verlor und 55% der Spiele gegen Spieler der Mittelstufe gewann. Dies deutet stark darauf hin, dass der Agent das Niveau eines menschlichen Spielers der Mittelstufe in Rallyes erreicht hat.

Die Studienteilnehmer mochten es, gegen den Roboter zu spielen, und bewerteten ihn in Bezug auf "Spaß" und "Engagement" sehr hoch. Diese Bewertungen waren über alle Fähigkeitsstufen hinweg konsistent, unabhängig davon, ob die Teilnehmer gewannen oder verloren. Sie antworteten auch überwältigend mit "definitiv ja" auf die Frage, ob sie wieder gegen den Roboter spielen würden. Als ihnen freie Zeit zum Spielen mit dem Roboter gegeben wurde, spielten sie durchschnittlich 4 Minuten und 06 Sekunden von insgesamt 5 Minuten.

Fortgeschrittene Spieler konnten Schwächen in der Roboterstrategie ausnutzen, genossen es aber trotzdem, gegen ihn zu spielen. In Interviews nach dem Spiel betrachteten sie ihn als einen dynamischeren Trainingspartner als eine Ballmaschine.

Einschränkungen und Ausblick

Das Forschungsteam gibt an, dass dieses Roboter-Lernsystem noch einige ### Einschränkungen hat, wie z.B. begrenzte Reaktionsfähigkeit auf schnelle und niedrige Bälle, geringe Genauigkeit bei der Rotationserkennung, fehlende Mehrball-Strategietaktiken usw.

Zukünftige Forschungsrichtungen umfassen die Verbesserung der Fähigkeit des Roboters, verschiedene Bälle zu handhaben, das Erlernen komplexerer Strategien, die Verbesserung der Bewegungserfassungstechnologie usw.

Das Forschungsteam gibt auch an, dass die in dieser Studie vorgeschlagene hierarchische Strategiearchitektur und die Zero-Shot-Sim-to-Real-Transfermethode auf andere Roboter-Lernaufgaben angewendet werden können. Darüber hinaus können Echtzeit-Anpassungstechniken Robotern helfen, sich besser an sich ständig ändernde Umgebungen und Aufgaben anzupassen. Außerdem sind Systemdesignprinzipien entscheidend für die Entwicklung leistungsfähiger und robuster Roboter-Lernsysteme.