人形机器人,如何跑出数据荒漠 | 海斌访谈
AI导读:
4月19日,北京亦庄机器人马拉松决出胜负。
300余台机器人参与竞逐,它们或是自主导航,或是人类遥控完成了比赛。相比去年,机器人的运动能力大幅提升。现在机器人除了跑马,还已经登上春晚舞台,进入工厂流水线。这种技
4月19日,北京亦庄机器人马拉松决出胜负。
300余台机器人参与竞逐,它们或是自主导航,或是人类遥控完成了比赛。相比去年,机器人的运动能力大幅提升。现在机器人除了跑马,还已经登上春晚舞台,进入工厂流水线。这种技术进步有目共睹,而缺憾也一目了然:机器人依然不够聪明。
机器人现在困于数据荒漠里。高质量数据,比石油还稀缺,阻碍了人工智能技术进入真实世界的脚步。“具身智能一定会出现涌现时刻的,而且涌现时刻一定是和数据量与数据组成挂钩的。”觅蜂科技董事长兼CEO姚卯青不久前对第一财经记者表示。
缺口有多大
具身智能以机器人的形态,走出实验室、奔赴千行百业。
人形机器人已经可以以自主的方式跑完半场马拉松,它们也进入龙旗科技的平板工厂完成上下料工作,更不必提在舞台上武术表演了。但机器人现在跑步的时候还是踉踉跄跄,工厂流水线上只能完成特定环节的工作,舞台表演看上去还有些憨傻。
这些机器人,能完成一些工作,但确实还不太聪明。大语言模型比如ChatGPT、DeepSeek都已经见证了智能涌现,而机器人智能还在等待这一刻的到来。
高质量、标准化、规模化的数据,是驱动机器人奔向智能化时代的核心基石。姚卯青认为,机器人的智能涌现时刻一定是和数据量与数据组成挂钩的。
“人形机器人是一个比汽车更大更具想象力的空间,我们正在这个时代的起点。虽然万亿产业蓄势待发,但整个行业却面临着很大的瓶颈和挑战——数据荒漠。”姚卯青在17日的智元合作伙伴大会上表示。
大语言模型的数据获取成本比较低,可以从互联网的各种日常应用里面轻松获取。迪士尼的动画、电子版的苏东坡词集,都可以成为大语言模型的高质量数据。
“目前最领先的大语言模型,比如GPT5用了100万亿token的训练语料。”姚卯青说,1个token近似于0.75个英语单词,正常人如果每分钟诵读150个单词,需要100亿个小时才能读完这些语料集。
机器人所需数据的获取难度高很多。高质量的真机数据,需要机器人去真实世界里摸爬滚打。比如机器人上手搬运行李、清洁房屋,才能获取这些动作反馈的数据。如果说大语言模型需要的是一维的文本资料,机器人需要的就是三维开放世界的知识,数量级、复杂度、获取成本都不可同日而语。
从数据供给侧来看,过去两年全国各地陆陆续续出现数据采集企业,它们有场景资源,有采集能力,但是缺少标准化的运营和管理体系,以及一套完整成熟的数据后处理、治理和流通的能力。只有原始数据是远远不够的,它们需要经过很多的加工和标注,才能为人工智能企业所用。这导致一些数据采集企业空有资源却没法变现。
从数据的需求侧来看,AI大模型公司、科技大厂的具身团队、初创的人形机器人公司都需要海量的高质量数据,但是却无法找到能稳定、快速地供给和高质量的方案,严重拖慢了AI类产品的落地。
极佳视界是一家具身智能和通用机器人的独角兽公司,4月份刚刚完成新一轮的15亿融资。在智元合作伙伴大会的圆桌环节,极佳视界联合创始人朱政表示,该公司在训练模型的过程中,大概使用了几十万个小时的数据。这些数据主要有两个来源,第一是各种网上公开的数据,包括合作伙伴,包括学术机构开源出来的数据;第二则是极佳视界自己采集的数据。
“大部分数据都是在实验室环境下,或者说在人工设置好的场景下采集的。我们觉得还不够真实,希望数据更多一些泛服务场景、工业场景,甚至家庭场景,更加真实我们觉得更好。”朱政说。
外购数据质量往往不达标,数据质量参差不齐。
“我们之前做多模态模型的时候,一张图可能给它几千句话的标注,详细地描述这张图里面的背景、前景、发生了什么,以及不同标注员对它的理解。现在的视频数据,除了自己采回来的数据之外,都是非常简略地标注,对整个环境的标注、对任务的描述远远不够。”朱政表示。
姚卯青深有同感。
“这些数据里面,标注很多是不太规范的,各种传感器之间的空间标定,时间上的同步也有很多问题。标注质量也比较粗糙,脏数据还是充斥着整个市场的。”姚卯青说,现在的大模型都是数据驱动,什么样的数据就产生什么样的模型。“garbage in、garbage out,如果你是垃圾数据进,就垃圾模型出。”
数据低质,造成的深层次问题是,如果有一个好的算法,训练后却没有得到好的效果,机器人企业将难以分辨,到底是数据不好,还是模型出了问题,甚至可能因此而否定掉优秀的算法。
“今天整个行业的高质量数据汇聚在一起,凑凑可能就50万小时的规模。”姚卯青认为,要达到智能涌现时刻,1亿小时的训练数据可能都不够。高质量真机数据的供需之间,存在成千上万倍的差距。
鸿沟如何填平
各家机器人企业,数据标准各自为战。
不少机器人企业在自主生产数据,但数据格式、标注等都是自成体系。
“它们都是一个个的孤岛,很难互通复用。这就造成了企业与企业之间、上游与下游、应用方与数据生产方等的协作成本非常高,整个产业很难形成合力快速地往规模化发展。”姚卯青分析说。
真机数据成本高昂,采集一小时数据大概需要200元甚至更高。按照这样的成本核算,人类恐怕会因为总体成本太高而难以采集几百亿小时数据。仿真数据等虽然训练效果不及真机数据,是一个退而求其次的选择,但也变得不可或缺。
智元专门成立了觅蜂科技以采集和加工数据。根据觅蜂科技的规划,2026年要实现千万小时级的数据产能,其中包括真机、仿真,也包括人类数据。
“数据金字塔包括三层,最上面这一层是真机的数据,它一定是最有针对性、质量最高的数据;中间这一层是仿真数据;下面这一层是视频数据、互联网数据,现在我认为可能更具代表性的是人类数据。”光轮智能CEO谢晨表示。
数据的核心问题,谢晨认为不在数据本身,而是在模型评价上。现在缺乏一个足够开放的、足够真实的,且可规模化的落地到真实场景的具身模型评价方式。如果没有合适的评价体系,企业就不知道用什么样的数据能够做好具身模型。
这个可规模化的评价体系,谢晨认为底层需要的是仿真,所以他认为真机数据、仿真数据、人类数据都至关重要。它们都是智能涌现的必要条件。
就如同特斯拉FSD有上百万辆车,不断地从真实场景拿回数据。具身智能需要用人类的手脚与全世界各种各样的物体进行交互以获取数据。具身数据的难度、数据需求的规模可能会在特斯拉FSD的1000倍。
谢晨认为,比照特斯拉的100万辆汽车,具身智能需要10亿个数据生成器,这需要动员真机、仿真和人类三大核心来源。
在数据稀缺的情况下,现在对数据的利用效率还很低,亟待提高。
据朱政透露,极佳视界用了几十万个小时的数据训练模型,为此每年要在GPU算力上花掉几千万人民币。如果按照当下的数据使用效率,极佳把训练数据扩增100倍甚至1000倍的时候,单单为GPU烧掉的钱就会超过它所能承受的支付能力。
“我们一方面要扩增数据,一方面要努力地改善模型的架构,提高运行的效率。”朱政说。
在今年的北京亦庄机器人马拉松上,人形机器人奔跑的速度已经追平人类运动员。但人形机器人企业探寻高质量数据的马拉松才刚刚开始。
(文章来源:第一财经)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

