空间大模型:通用机器人的关键推手 - Coatue报告解析

AI实体化趋势兴起,智能机器人迎来新纪元。

全球顶级对冲基金Coatue最近发布了一篇关于"具身智能"的重要报告,标题为《通用机器人的发展路径》。

Coatue认为,AI机器人是一股颠覆性的力量,有望成为人类历史上最大的科技浪潮之一,值得高度重视。

这篇报告亮点很多,不仅详细分析了当前AI机器人面临的挑战,同时也对行业发展做出了合理展望,从投资的角度给出了专业意见。无论你是科技投资人、AI从业者、还是对机器人感兴趣的朋友,都值得一读。

下面我给大家解读一下这篇大报告。报告链接放在文末,欢迎感兴趣的朋友去看原文。

(1)理想很丰满,现实很骨感

机器人行业可能是Demo与现实差距最大的行业之一。

1961年,第一台工业机器人诞生于通用汽车公司,用于汽车生产流水线。

经过50多年的发展,机器人的形态变得越来越多样,功能场景也丰富了起来,有扫地机器人、四足机器人、人型机器人等。

纵观历史,机器人渗透率其实是线性提升的。

以工业机器人为例,每万名制造业员工对应机器人的数量从2013年的53台增长到2022年的151台,复合年增长率达到12%。

虽然机器人行业整体发展稳中向好,但具体公司的表现并不尽如人意。

机器人公司普遍存在商业化困难的问题,加之前期资本开支巨大,22-23年大量机器人公司破产倒闭。

(2)空间智能,让通用机器人成为可能

上一代机器人更多是执行某些单一任务的,比如扫地机器人只负责扫地,农业无人机只负责灌溉农田,工业机器人只负责机械焊接等。

但随着AI泛化智能的涌现,下一代机器人有望成为"通用机器人",胜任各式各样的任务与环境。

正如大语言模型让语言推理成为现实,空间大模型有望打破第四面墙,让AI真正理解物理世界,从而与之交互。

(3)机器人面临的核心挑战:缺乏训练数据

对人类来说很简单的任务,对机器人来说可能并不容易。

Coatue举了三个具体例子。

灵巧性:

空间感知能力:

平衡恢复能力:

为了克服这些问题,需要用海量数据进行训练,使机器人变得更加智能。

但机器人是一个非常新的领域,严重缺乏训练数据的积累。

对比不同模态下的最大数据集,文本模态约15T tokens,图片模态有6B图文配对数据,视频模态有2.6B视听特征数据。

然而机器人模态只有240万个数据片段,相比其他模态而言,数据积累远远不够。

(4)机器人训练数据的四种采集方式

既然数据是机器人发展的核心瓶颈,那么有什么方法可以快速积累机器人训练数据呢?

近年来,这方面的研究层出不穷,逐渐形成了四种流派。

机器人数据采集方法1:远程操作(Teleoperation)

顾名思义,由实验人员操作机械手柄,远程控制机器人做出相同动作,以此来积累数据。

机器人数据采集方法2:AR

在一项名为《通过增强现实实现可解释的人机训练与合作》的研究中,研究人员通过AR(增强现实)技术让人机交互过程具备更强的可解释性,从而进行数据积累。

机器人数据采集方法3:仿真

通过海量算力进行模拟运算,计算得出海量机器人训练数据集。

仿真可能是目前最有可能做到规模化数据生成的路径,背后需要巨大的算力支持。

目前Nvidia的Jim Fan团队采取的就是这条技术路径。

机器人数据采集方法4:视频学习

通过多模态大模型,直接让机器人通过视频学习人类动作,从而积累训练数据。

(5)机器人成本与人类工资的黄金交叉

随着GPU成本的下降,大模型训练的成本大幅降低。

过去一年中,Azure云平台上的A100显卡租赁价格从6美元/小时下降到1.5美元/小时,降幅达到75%。