全球頂級對沖基金Coatue近日發布了一篇關於「具身智能」的重磅報告,題為《The Path to General-Purpose Robots》。
Coatue認為,AI機器人是一股顛覆性的力量,有望成為人類歷史上最大的科技浪潮之一,值得高度重視。
這篇報告亮點很多,不僅細緻分析了現階段AI機器人面臨的挑戰,同時也對行業發展做出了合理展望,從投資的角度給出了專業意見。無論你是科技投資人、AI從業者、還是對機器人感興趣的朋友,都值得一讀。
下面我給大家解讀一下這篇大報告。報告鏈接放在文末,歡迎感興趣的朋友去看原文。
(1)理想很豐滿,現實很骨感
機器人行業也許是Demo與現實差距最大的行業之一。
1961年,第一台工業機器人誕生於GM,用於汽車生產流水線。
經過50多年的發展,機器人的形態變得越來越多樣,功能場景也豐富了起來,有掃地機器人、四足機器人、人型機器人等。
縱觀歷史,機器人滲透率其實是線性提升的。
以工業機器人為例,每萬名製造業員工對應機器人的數量從2013年的53台增長到2022年的151台,CAGR達到12%。
雖然機器人行業整體發展穩中向好,但是具體公司的的表現並不盡如人意。
機器人公司普遍存在商業化困難的問題,加之前期資本開支巨大,22-23年大量機器人公司破產倒閉。
(2)空間智能,讓通用機器人成為可能
上一代機器人更多是執行某些單一任務的,比如掃地機器人只負責掃地,農業無人機只負責灌溉農田,工業機器人只負責機械焊接等。
但是隨著AI泛化智能的湧現,下一代機器人有望成為「通用機器人」,勝任各式各樣的任務與環境。
正如大語言模型讓語言推理成為現實,空間大模型有望打破第四面牆,讓AI真正理解物理世界,從而與之交互。
(3)機器人面臨的核心挑戰:缺乏訓練數據
對人類來說很簡單的任務,對機器人來說可能並不容易。
Coatue舉了三個具體例子。
靈巧性:
空間感知能力:
平衡恢復能力:
為了克服這些問題,需要用海量數據進行訓練,使機器人變得更加智能。
但是機器人是一個非常新的領域,嚴重缺乏訓練數據的積累。
對比不同模態下的最大數據集,文本模態約15T tokens,圖片模態有6B圖文配對數據,視頻模態有2.6B視聽特徵數據。
然而機器人模態只有240萬個數據片段,相比其他模態而言,數據積累遠遠不夠。
(4)機器人訓練數據的四種採集方式
既然數據是機器人發展的核心瓶頸,那麼有什麼方法可以快速積累機器人訓練數據呢?
近年來,這方面的研究層出不窮,逐漸形成了四種流派。
機器人數據採集方法1:遠程操作(Teleoperation)
顧名思義,由實驗人員操作機械手柄,遠程控制機器人做出相同動作,以此來積累數據。
機器人數據採集方法2:AR
在一項名為《Explainable Human-Robot Training and Cooperation with Augmented Reality》的研究中,研究人員通過AR(增強現實)技術讓人機交互過程具備更強的可解釋性,從而進行數據積累。
機器人數據採集方法3:仿真
通過海量算力進行模擬運算,計算得出海量機器人訓練數據集。
仿真可能是目前最有可能做到規模化數據生成的路徑,背後需要巨大的算力支持。
目前Nvidia的Jim Fan團隊採取的就是這條技術路徑。
機器人數據採集方法4:視頻學習
通過多模態大模型,直接讓機器人通過視頻學習人類動作,從而積累訓練數據。
(5)機器人成本與人類工資的黃金交叉
隨著GPU成本的下降,大模型訓練的成本大幅降低。
過去一年中,Azure雲平台上的A100顯卡租賃價格從6美金/小時下降到1.5美金/小時,降幅達到75%。