Les grands modèles spatiaux : moteurs clés des robots universels - Analyse du rapport Coatue

L'essor de la tendance à l'incarnation de l'IA, les robots intelligents entrent dans une nouvelle ère.

Le fonds spéculatif de premier plan mondial Coatue a récemment publié un rapport important sur "l'intelligence incarnée", intitulé "The Path to General-Purpose Robots".

Coatue estime que les robots IA sont une force perturbatrice qui pourrait devenir l'une des plus grandes vagues technologiques de l'histoire humaine, méritant une grande attention.

Ce rapport comporte de nombreux points forts, analysant non seulement en détail les défis auxquels sont confrontés les robots IA à l'heure actuelle, mais offrant également des perspectives raisonnables sur le développement de l'industrie, donnant des avis professionnels du point de vue de l'investissement. Que vous soyez un investisseur technologique, un professionnel de l'IA ou simplement intéressé par les robots, cela vaut la peine d'être lu.

Voici mon interprétation de ce grand rapport. Le lien vers le rapport est à la fin, n'hésitez pas à lire l'original si vous êtes intéressé.

(1) L'idéal est riche, la réalité est maigre

L'industrie robotique est peut-être l'une des industries où l'écart entre la démo et la réalité est le plus grand.

En 1961, le premier robot industriel est né chez GM, utilisé sur la chaîne de production automobile.

Après plus de 50 ans de développement, les formes de robots sont devenues de plus en plus diverses, et les scénarios fonctionnels se sont enrichis, avec des robots aspirateurs, des robots quadrupèdes, des robots humanoïdes, etc.

Historiquement, le taux de pénétration des robots a en fait augmenté linéairement.

Prenant l'exemple des robots industriels, le nombre de robots correspondant à 10 000 employés manufacturiers est passé de 53 en 2013 à 151 en 2022, avec un TCAC de 12%.

Bien que le développement global de l'industrie robotique soit stable et positif, la performance des entreprises spécifiques n'est pas aussi bonne que prévu.

Les entreprises de robotique font généralement face à des difficultés de commercialisation, et avec d'énormes dépenses en capital initiales, de nombreuses entreprises de robotique ont fait faillite en 2022-2023.

(2) L'intelligence spatiale rend les robots polyvalents possibles

La génération précédente de robots était plus axée sur l'exécution de certaines tâches uniques, comme les robots aspirateurs qui ne s'occupent que du nettoyage, les drones agricoles qui ne s'occupent que de l'irrigation des champs, les robots industriels qui ne s'occupent que du soudage mécanique, etc.

Mais avec l'émergence de l'intelligence généralisée de l'IA, la prochaine génération de robots pourrait devenir des "robots polyvalents", capables d'accomplir toutes sortes de tâches et d'environnements.

Tout comme les grands modèles de langage ont rendu le raisonnement linguistique une réalité, les grands modèles spatiaux pourraient briser le quatrième mur, permettant à l'IA de vraiment comprendre le monde physique et d'interagir avec lui.

(3) Le défi central auquel sont confrontés les robots : le manque de données d'entraînement

Des tâches qui sont très simples pour les humains peuvent ne pas être faciles pour les robots.

Coatue a donné trois exemples spécifiques.

Dextérité :

Capacité de perception spatiale :

Capacité de récupération de l'équilibre :

Pour surmonter ces problèmes, il faut s'entraîner avec des données massives pour rendre les robots plus intelligents.

Mais la robotique est un domaine très nouveau, qui manque sérieusement d'accumulation de données d'entraînement.

En comparant les plus grands ensembles de données dans différentes modalités, la modalité textuelle a environ 15T tokens, la modalité image a 6B paires image-texte, la modalité vidéo a 2,6B caractéristiques audiovisuelles.

Cependant, la modalité robotique n'a que 2,4 millions de segments de données, ce qui est loin d'être suffisant par rapport aux autres modalités.

(4) Quatre méthodes de collecte de données d'entraînement pour les robots

Puisque les données sont le goulot d'étranglement central du développement des robots, quelles méthodes peuvent être utilisées pour accumuler rapidement des données d'entraînement pour les robots ?

Ces dernières années, les recherches dans ce domaine ont été nombreuses, formant progressivement quatre écoles de pensée.

Méthode 1 de collecte de données robotiques : Téléopération

Comme son nom l'indique, les expérimentateurs manipulent des manettes mécaniques pour contrôler à distance les robots pour faire les mêmes mouvements, accumulant ainsi des données.

Méthode 2 de collecte de données robotiques : RA

Dans une étude intitulée "Explainable Human-Robot Training and Cooperation with Augmented Reality", les chercheurs ont utilisé la technologie de réalité augmentée (RA) pour rendre le processus d'interaction homme-machine plus explicable, accumulant ainsi des données.

Méthode 3 de collecte de données robotiques : Simulation

Effectuer des calculs de simulation avec une puissance de calcul massive pour générer des ensembles de données d'entraînement robotiques massifs.

La simulation est probablement la voie la plus susceptible de réaliser une génération de données à grande échelle actuellement, nécessitant un énorme support de puissance de calcul.

Actuellement, l'équipe de Jim Fan chez Nvidia adopte cette voie technologique.

Méthode 4 de collecte de données robotiques : Apprentissage vidéo

Utiliser des grands modèles multimodaux pour permettre aux robots d'apprendre directement les actions humaines à travers des vidéos, accumulant ainsi des données d'entraînement.

(5) Le croisement d'or entre le coût des robots et les salaires humains

Avec la baisse du coût des GPU, le coût de formation des grands modèles a considérablement diminué.

Au cours de l'année dernière, le prix de location des cartes graphiques A100 sur la plateforme cloud Azure est passé de 6 dollars/heure à 1,5 dollar/heure, soit une baisse de 75%.