Raumgroße Modelle: Der entscheidende Treiber für universelle Roboter - Analyse des Coatue-Berichts

Der globale Top-Hedgefonds Coatue hat kürzlich einen bahnbrechenden Bericht über "verkörperte Intelligenz" mit dem Titel "The Path to General-Purpose Robots" veröffentlicht.

Coatue ist der Ansicht, dass KI-Roboter eine disruptive Kraft sind und möglicherweise zu einer der größten technologischen Wellen in der Geschichte der Menschheit werden könnten, die große Aufmerksamkeit verdient.

Dieser Bericht hat viele Highlights. Er analysiert nicht nur detailliert die Herausforderungen, denen KI-Roboter derzeit gegenüberstehen, sondern gibt auch einen vernünftigen Ausblick auf die Branchenentwicklung und bietet professionelle Meinungen aus Investorensicht. Ob Sie ein Technologie-Investor, ein KI-Praktiker oder einfach nur an Robotern interessiert sind, es lohnt sich, ihn zu lesen.

Ich werde Ihnen nun diesen umfangreichen Bericht erläutern. Der Link zum Bericht befindet sich am Ende des Textes. Interessierte sind eingeladen, das Original zu lesen.

(1) Ideal und Realität klaffen weit auseinander

Die Robotikbranche ist vielleicht eine der Branchen mit der größten Diskrepanz zwischen Demo und Realität.

1961 wurde der erste Industrieroboter bei GM für die Automobilproduktion geboren.

Nach mehr als 50 Jahren Entwicklung sind Roboter vielfältiger geworden, mit reichhaltigeren Funktionen und Szenarien, einschließlich Staubsaugerroboter, vierbeinige Roboter, humanoide Roboter und mehr.

Historisch gesehen ist die Durchdringung von Robotern linear gestiegen.

Am Beispiel von Industrierobotern stieg die Anzahl der Roboter pro 10.000 Beschäftigte in der Fertigung von 53 im Jahr 2013 auf 151 im Jahr 2022, mit einer CAGR von 12%.

Obwohl sich die Robotikbranche insgesamt stetig verbessert hat, ist die Leistung einzelner Unternehmen nicht immer zufriedenstellend.

Robotik-Unternehmen haben generell Schwierigkeiten mit der Kommerzialisierung, und angesichts der enormen Kapitalausgaben in der Anfangsphase gingen 2022-2023 viele Robotik-Unternehmen in Konkurs.

(2) Räumliche Intelligenz macht Allzweckroboter möglich

Die vorherige Generation von Robotern führte eher einzelne Aufgaben aus, wie Staubsaugerroboter, die nur staubsaugen, landwirtschaftliche Drohnen, die nur Felder bewässern, oder Industrieroboter, die nur schweißen.

Mit dem Aufkommen der KI-Generalisierung könnte die nächste Generation von Robotern jedoch zu "Allzweckrobotern" werden, die verschiedene Aufgaben und Umgebungen bewältigen können.

So wie große Sprachmodelle sprachliches Denken ermöglicht haben, könnten große räumliche Modelle die vierte Wand durchbrechen und KI ermöglichen, die physische Welt wirklich zu verstehen und mit ihr zu interagieren.

(3) Kernherausforderung für Roboter: Mangel an Trainingsdaten

Aufgaben, die für Menschen einfach sind, können für Roboter schwierig sein.

Coatue nennt drei konkrete Beispiele.

Geschicklichkeit:

Räumliches Wahrnehmungsvermögen:

Fähigkeit zur Wiederherstellung des Gleichgewichts:

Um diese Probleme zu überwinden, ist ein Training mit riesigen Datenmengen erforderlich, um Roboter intelligenter zu machen.

Aber Robotik ist ein sehr neues Feld, dem es ernsthaft an akkumulierten Trainingsdaten mangelt.

Im Vergleich zu den größten Datensätzen in verschiedenen Modalitäten gibt es etwa 15T Tokens in der Textmodalität, 6B Bild-Text-Paare in der Bildmodalität und 2,6B audiovisuelle Merkmalsdaten in der Videomodalität.

In der Robotikmodalität gibt es jedoch nur 2,4 Millionen Datensegmente, was im Vergleich zu anderen Modalitäten bei weitem nicht ausreicht.

(4) Vier Methoden zur Erfassung von Roboter-Trainingsdaten

Da Daten der Kernengpass für die Entwicklung von Robotern sind, welche Methoden gibt es, um schnell Roboter-Trainingsdaten zu sammeln?

In den letzten Jahren gab es in diesem Bereich zahlreiche Forschungen, die allmählich vier Schulen hervorgebracht haben.

Methode 1 zur Erfassung von Roboterdaten: Teleoperation

Wie der Name schon sagt, bedienen Experimentatoren mechanische Griffe, um Roboter fernzusteuern und die gleichen Bewegungen auszuführen, um Daten zu sammeln.

Methode 2 zur Erfassung von Roboterdaten: AR

In einer Studie mit dem Titel "Explainable Human-Robot Training and Cooperation with Augmented Reality" nutzten Forscher AR (Augmented Reality) Technologie, um den Mensch-Roboter-Interaktionsprozess erklärbarer zu machen und so Daten zu sammeln.

Methode 3 zur Erfassung von Roboterdaten: Simulation

Durch massive Rechenleistung werden Simulationsberechnungen durchgeführt, um riesige Roboter-Trainingsdatensätze zu generieren.

Simulation ist möglicherweise derzeit der vielversprechendste Weg zur skalierbaren Datengenerierung, der enorme Rechenleistung erfordert.

Derzeit verfolgt Jim Fans Team bei Nvidia diesen technologischen Ansatz.

Methode 4 zur Erfassung von Roboterdaten: Videolernen

Durch multimodale große Modelle lernen Roboter direkt menschliche Bewegungen aus Videos und sammeln so Trainingsdaten.

(5) Der Goldene Schnittpunkt von Roboterkosten und menschlichen Löhnen

Mit sinkenden GPU-Kosten sind die Kosten für das Training großer Modelle drastisch gesunken.

Im vergangenen Jahr sind die Mietpreise für A100-GPUs auf der Azure-Cloud-Plattform von 6 USD pro Stunde auf 1,5 USD pro Stunde gesunken, ein Rückgang um 75%.

Raumgroße Modelle: Der entscheidende Treiber für universelle Roboter - Analyse des Coatue-Berichts

KI-Verkörperung gewinnt an Bedeutung, intelligente Roboter treten in eine neue Ära ein.