Über den Erwartungen, dieser Roboter hat bereits ein mittleres Niveau erreicht.
Nach der Betrachtung seiner Leistung äußerten sich viele Internetnutzer: ### Kann man ihn kaufen? Ich möchte einen haben.
Souveräne Bewältigung auch unerwarteter Situationen
Tischtennis ist ein Sport, der hohe Anforderungen an Ausdauer, Strategie, Technik und viele andere Aspekte stellt. Menschen benötigen oft jahrelanges Training, um es zu beherrschen.
Im Gegensatz zu reinen Strategiespielen wie Schach oder Go ist Tischtennis daher für Roboter zu einem wichtigen Maßstab für ihre Gesamtfähigkeiten geworden, wie zum Beispiel Hochgeschwindigkeitsbewegungen, präzise Echtzeit-Steuerung, strategische Entscheidungsfindung, Systemdesign und vieles mehr.
Beispielsweise muss der Roboter seine Position schnell ändern, um auf verschiedene Ballaufschlagpunkte zu reagieren; bei offensichtlich ausgehenden Bällen sollte der Roboter entscheiden, nicht zu spielen.
Das Team fand 29 Tischtennisspieler unterschiedlicher Fähigkeitsstufen für Wettkämpfe, darunter Anfänger, Mittelstufe, Fortgeschrittene und über Fortgeschrittene.
Menschen und Roboter spielten 3 Spiele nach den Standard-Tischtennisregeln. (Allerdings konnte der Roboter nicht aufschlagen, so dass das gesamte Spiel von Menschen aufgeschlagen wurde)
Zuvor gab es bereits entsprechende Forschungen zu Tischtennis-Robotern. Das Besondere am Google-Roboter ist, dass er in der Lage ist, umfassende Wettkämpfe mit Menschen zu führen, die er noch nie zuvor gesehen hat.
Er kann sich schnell an die verschiedenen Spielstile der Menschen anpassen.
Zum Beispiel sieht man bei diesem Spieler, dass sich der Roboter zu Beginn des Spiels offensichtlich noch in der Anpassungsphase befindet und der Mensch den Roboter mit 9:2 deutlich schlägt.
Aber schon in der nächsten Runde hat sich der Roboter offensichtlich an den Stil des Gegners gewöhnt und liegt dicht am Punktestand. Beide Seiten spielen Schlag auf Schlag.
Letztendlich gewann der Roboter gegen alle Anfänger und hatte eine Gewinnquote von 55% gegen Spieler der mittleren Stufe.
Obwohl der Roboter derzeit noch nicht in der Lage ist, fortgeschrittene Spieler zu besiegen, kann man aus den verschiedenen Rückmeldungen der Menschen sehen, dass alle gerne mit diesem Roboter spielen.
Wie meistert man das kleine Tischtennis?
Bevor wir die Methode vorstellen, werfen wir einen Blick auf die Hardware-Konfiguration des Tischtennis-Roboters.
Der Hauptkörper verwendet einen 6-Achsen-Roboterarm IRB 1100 des Schweizer Unternehmens ABB, der auf zwei Festo-Linearführungen montiert ist, die eine Bewegung in der Ebene ermöglichen. Die horizontale Bewegungsschiene ist 4 Meter lang, die vertikale 2 Meter.
Am Roboterarm ist ein 3D-gedruckter Schlägergriff mit einem mit kurzem Noppen-Belag überzogenen Schläger montiert.
Wie hat dieses kleine Ding gelernt, Tischtennis zu spielen?
Zusammengefasst wurde eine Kombination aus ### Verstärkungslernen und ### Imitationslernen als hybride Trainingsmethode verwendet.
Das Team entwarf eine hierarchische und modulare Strategiearchitektur. Der Agent umfasst eine Low-Level-Fähigkeitenbibliothek (LLC) und einen High-Level-Controller (HLC).
Die LLC ist eine Gruppe spezialisierter Strategien, von denen jede darauf trainiert ist, ### spezifische Tischtennisfähigkeiten auszuführen, wie Vorhand-Schläge, Rückhand-Schläge, Aufschläge usw. Diese LLCs verwenden eine CNN-Architektur und werden durch evolutionäre Strategiealgorithmen in einer Simulationsumgebung trainiert.
Der Trainingsprozess verwendet einen Datensatz von Ballzuständen aus der realen Welt, um die Konsistenz zwischen simulierter und realer Umgebung sicherzustellen.
Der HLC ist dafür verantwortlich, ### bei jedem ankommenden Ball die am besten geeignete LLC auszuwählen.
Er enthält mehrere Komponenten: eine Stilstrategie zur Auswahl von Vorhand oder Rückhand; einen Rotationsklassifikator zur Erkennung der Rotation des ankommenden Balls; LLC-Fähigkeitsdeskriptoren, die die Fähigkeiten jeder LLC beschreiben; eine Reihe heuristischer Strategien zur Shortlist-Erstellung von Kandidaten-LLCs basierend auf der aktuellen Situation.
Der HLC verwendet auch Online-Lernen von LLC-Präferenzen, um sich an die Besonderheiten des Gegners anzupassen und die Lücke zwischen Simulation und Realität zu überbrücken.
Konkret sammelte das Team zunächst eine kleine Menge an Daten aus menschlichen Spielen, setzte die initialen Aufgabenbedingungen und trainierte dann einen Agenten mit Verstärkungslernen in einer simulierten Umgebung, bevor die Strategie ohne Beispiele in die reale Welt übertragen wurde.
Dabei wurde die MuJoCo-Physik-Engine verwendet, um die Ball- und Roboterdynamik präzise zu simulieren, einschließlich Luftwiderstand, Magnus-Effekt usw. Es wurde auch eine "Korrektur" für Topspin-Bälle entwickelt, indem in der Simulation zwischen verschiedenen Schlägerparametern gewechselt wurde, um die Effekte von Topspin und Backspin in der realen Welt zu simulieren.
Während des kontinuierlichen Spiels zwischen Agent und Mensch können mehr Trainingsaufgabenbedingungen generiert und das Training-Deployment wiederholt werden.
Die Fähigkeiten des Roboters verbessern sich allmählich, und die Spiele werden zunehmend komplexer, basieren aber immer noch auf realen Aufgabenbedingungen. Nachdem der Roboter Daten gesammelt hat, kann er auch Mängel in seinen Fähigkeiten entdecken und diese anschließend durch kontinuierliches Training in der simulierten Umgebung beheben.
Durch diese Methode können die Fähigkeiten des Roboters in einem Kreislauf, der Simulation und Realität kombiniert, automatisch iterativ verbessert werden.
Darüber hinaus kann dieser Roboter das Verhalten und den Spielstil des Gegners verfolgen, um sich an verschiedene Gegner anzupassen, zum Beispiel in welchen Teil des Tisches der Gegner den Ball tendenziell zurückspielt.
Dadurch kann er verschiedene Techniken ausprobieren, seine Erfolgsquote überwachen und seine Strategie in Echtzeit anpassen.
In Experimenten mit menschlichen Gegnern entdeckte das Team auch eine Schwäche dieses Roboters: Er ist nicht gut darin, Backspin-Bälle zu handhaben.
Basierend auf der Einschätzung der Ballrotation,