Modelos espaciales grandes: el impulsor clave de los robots universales - Análisis del informe de Coatue

La tendencia de la personificación de la IA está en auge, inaugurando una nueva era para los robots inteligentes.

El fondo de cobertura global de primer nivel Coatue publicó recientemente un importante informe sobre "inteligencia incorporada" titulado "El camino hacia los robots de propósito general".

Coatue cree que los robots de IA son una fuerza disruptiva que tiene el potencial de convertirse en una de las mayores olas tecnológicas de la historia humana y merece mucha atención.

Este informe tiene muchos puntos destacados, no solo analiza en detalle los desafíos que enfrentan actualmente los robots de IA, sino que también ofrece una perspectiva razonable sobre el desarrollo de la industria y proporciona opiniones profesionales desde una perspectiva de inversión. Ya sea que seas un inversor tecnológico, un profesional de la IA o alguien interesado en robots, vale la pena leerlo.

A continuación, les explicaré este gran informe. El enlace al informe está al final del artículo, los interesados pueden leer el original.

(1) El ideal es abundante, la realidad es cruda

La industria de la robótica puede ser una de las industrias con la mayor brecha entre las demostraciones y la realidad.

En 1961, el primer robot industrial nació en GM, utilizado en la línea de producción de automóviles.

Después de más de 50 años de desarrollo, las formas de los robots se han vuelto cada vez más diversas y los escenarios funcionales se han enriquecido, incluyendo robots aspiradores, robots cuadrúpedos, robots humanoides, etc.

A lo largo de la historia, la tasa de penetración de los robots ha aumentado linealmente.

Tomando los robots industriales como ejemplo, el número de robots por cada 10,000 empleados manufactureros aumentó de 53 en 2013 a 151 en 2022, con un CAGR del 12%.

Aunque el desarrollo general de la industria robótica es estable y positivo, el desempeño de empresas específicas no ha sido tan bueno como se esperaba.

Las empresas de robótica generalmente enfrentan dificultades de comercialización, además de enormes gastos de capital iniciales, lo que llevó a la quiebra de numerosas empresas de robótica en 2022-2023.

(2) La inteligencia espacial hace posibles los robots de propósito general

La generación anterior de robots se dedicaba más a realizar ciertas tareas únicas, como los robots aspiradores que solo se encargan de limpiar, los drones agrícolas que solo se encargan de regar los campos, los robots industriales que solo se encargan de la soldadura mecánica, etc.

Pero con el surgimiento de la inteligencia generalizada de la IA, la próxima generación de robots tiene el potencial de convertirse en "robots de propósito general", capaces de manejar una variedad de tareas y entornos.

Así como los modelos de lenguaje grandes han hecho posible el razonamiento lingüístico, los modelos espaciales grandes tienen el potencial de romper la cuarta pared, permitiendo que la IA realmente comprenda el mundo físico y, por lo tanto, interactúe con él.

(3) El desafío central que enfrentan los robots: falta de datos de entrenamiento

Las tareas que son simples para los humanos pueden no ser fáciles para los robots.

Coatue dio tres ejemplos específicos.

Destreza:

Capacidad de percepción espacial:

Capacidad de recuperación del equilibrio:

Para superar estos problemas, se necesita entrenar con grandes cantidades de datos para hacer que los robots sean más inteligentes.

Pero la robótica es un campo muy nuevo y carece seriamente de acumulación de datos de entrenamiento.

Comparando los conjuntos de datos más grandes en diferentes modalidades, la modalidad de texto tiene aproximadamente 15T tokens, la modalidad de imagen tiene 6B pares de imagen-texto, la modalidad de video tiene 2.6B características audiovisuales.

Sin embargo, la modalidad robótica solo tiene 2.4 millones de segmentos de datos, lo cual es mucho menos en comparación con otras modalidades.

(4) Cuatro métodos de recopilación de datos de entrenamiento para robots

Dado que los datos son el cuello de botella central para el desarrollo de robots, ¿qué métodos hay para acumular rápidamente datos de entrenamiento para robots?

En los últimos años, la investigación en esta área ha sido abundante, formando gradualmente cuatro escuelas de pensamiento.

Método 1 de recopilación de datos para robots: Teleoperación

Como su nombre indica, los experimentadores operan manijas mecánicas para controlar remotamente los robots para realizar los mismos movimientos, acumulando así datos.

Método 2 de recopilación de datos para robots: RA

En un estudio titulado "Entrenamiento y cooperación explicable entre humanos y robots con realidad aumentada", los investigadores utilizaron tecnología de RA (realidad aumentada) para hacer que el proceso de interacción humano-robot sea más explicable, acumulando así datos.

Método 3 de recopilación de datos para robots: Simulación

Realizar cálculos de simulación con computación masiva para generar conjuntos de datos de entrenamiento robótico masivos.

La simulación puede ser actualmente el camino más probable para la generación de datos a escala, respaldada por un enorme poder computacional.

Actualmente, el equipo de Jim Fan de Nvidia está adoptando esta ruta tecnológica.

Método 4 de recopilación de datos para robots: Aprendizaje por video

Utilizando modelos multimodales grandes, hacer que los robots aprendan directamente acciones humanas a través de videos, acumulando así datos de entrenamiento.

(5) El cruce dorado entre el costo de los robots y los salarios humanos

Con la disminución del costo de las GPU, el costo de entrenamiento de los modelos grandes se ha reducido significativamente.

En el último año, el precio de alquiler de las tarjetas gráficas A100 en la plataforma en la nube Azure ha bajado de 6 dólares por hora a 1.5 dólares por hora, una reducción del 75%.