AI导读:

具身智能企业面临数据饥渴,GPT-3带来少样本学习能力启示。第三方数据需排毒,模拟数据性价比待考量。具身智能大模型发展需克服数据、算法、算力等挑战。

马斯克正在担忧AI训练数据已经耗尽的时候,具身智能企业正在面临残酷的数据生死局:训练一个倒水动作需要一台超算运算千万亿次、第三方的数据“有毒”随时会让模型崩溃,仿真数据成本也正在攀升……

在这场决定未来机器人进化速度和方向的隐形数据大战中,有具身智能企业正通过“反直觉”的训练方法撕开突破口,让机器人在不相关的杂乱任务中领悟物理法则,试图建立数据护城河。AI向物理空间延伸,数据或将成为重塑技术权力的关键。然而,具身智能的机器人想要迎来大模型的GPT时刻,还需克服数据质量、算法、算力等多方面的挑战。毕竟,具身智能的终局是软件、硬件与商业模式的系统战争。

克服“数据饥渴”

想要训练一个机器人的大模型,究竟需要多少数据?自变量机器人(X Square)的创始人兼CEO王潜告诉记者,光是想要模拟人晃动杯中的水这一个动作,所涉及的计算量就可能需要一台超级计算机算十分钟。这足以说明,让机器人实现物理世界的复杂交互,需要海量的多模态真实和仿真数据支持。

分层模型曾被视为机器人领域的黄金法则,但王潜发现,随着每一层模型的传递,模型在某一层产生的微小误差,将会在后续的环节呈现指数级的扩散。因此,端到端的模型逐渐成为新的发展方向,让具身大模型的自我修正成为可能。

尽管海量数据是具身智能大模型发展的前提,但“数据饥渴”现象在行业中一直存在。王潜解释,强化学习的路径需要指数级增长的数据,而仿真数据又因物理交互的复杂性难以迁移到现实。

GPT-3的出现带来了“反人类直觉”的启示。此前训练机器人的动作模型,总是喂给其相似的任务数据语料。而GPT-3通过多任务学习,模型被迫提炼跨任务的共性规律,从而具备少样本甚至零样本的学习能力。看似完全不相干的任务,能够逼迫具身大模型更快地学习物理世界的通用原理。

第三方数据需“排毒”

GPT3虽然给具身智能大模型带来了“解药”,但具身智能数据场中的隐形战争仍未停止。相比于大语言模型的数据资源,具身大模型的数据成本更高。大模型的数据来源主要分为三块:互联网数字化沉淀的数据、嫁接了图文、3D等多种模态的数据、通过不同传感器获取的数据。

随着机器人行业的拓展,上游的数据供应商也不断涌现。然而,一位具身智能从业者告诉记者,就大模型的训练要求来说,第三方的数据使用率可能不足1%。数据的质量高低,是拉开具身智能大模型竞争力的重要评判标准。自变量机器人投入大量精力和资源自研数据系统来给数据“排毒”,在这场隐形的数据战争中,高质量的数据或将成为将来具身智能企业的核心壁垒。

模拟数据也要讲性价比

马斯克曾表示,人工智能数据训练已经耗尽。他认为,人类知识的累积总和已经用于AI训练,这种情况已发生。而合成数据又成为了“救命稻草”。但对于具身智能而言,合成数据并不一定比真实数据“划算”。模拟不同状态物体所需要的数据量不同,要想训练出泛化性高到可以在现实世界中部署的模型,需要在模拟器中模拟出不同物理规律的世界,并将大模型放在这些环境中训练。

然而,在GPU里跑模拟数据需要成本,因此在稍微复杂一点的任务上,模拟器已有明显劣势。未来机器人灵巧的手部操作,无法纯粹靠模拟器数据做出来。

具身智能发展至今,一些大模型也逐渐浮出水面。但记者注意到,这些大模型在演示中大多都集中突出了一些简单的手部姿势,大模型的泛化性和输出稳定性如何均未有明确展示。

(文章来源:第一财经