AI导读:

  4月13日,一段印度工厂工人头戴摄像头、边干活边采集数据的视频在境内外社交平台热传。一种占据主流的解读是,这些拍摄人类劳作的第一视角画面数据,将用于训练机器人的模型。
  实际上,这背后是具身智能行业新近兴起

  4月13日,一段印度工厂工人头戴摄像头、边干活边采集数据的视频在境内外社交平台热传。一种占据主流的解读是,这些拍摄人类劳作的第一视角画面数据,将用于训练机器人的模型。

  实际上,这背后是具身智能行业新近兴起的一种数据采集方式。业内把它叫做真实世界的人类视频数据,试图用相对简便的采集方式,实现工人干活与数据采集两不误。

  此前,具身智能行业常见的真机遥操数据采集,一般由采集员戴上VR头显对齐机器人的视野,去遥控一台机器人执行任务。但人类视频数据的采集无需再配置一台机器人,直接由采集员在手部或头部佩戴专用的可穿戴设备后进行作业,进而产生操作轨迹数据,亦因此被称为“无本体数据”。

  近期,一款基于无本体数据训练出来的具身智能基座模型点燃行业的讨论度。4月2日,美国具身智能模型公司Generalist发布新一代GEN-1模型,用50万小时真实世界的人类视频数据,实现模型在多个简单操作任务中超过99%的成功率。公司还声称该模型展现出广泛的涌现能力,能够在发生意外的情况下恢复任务执行。

  “震撼且神秘。”具身智能公司鹿明机器人联席CTO丁琰如此形容这家美国同行。Generalist的数据基建能力,以及随之而来的模型丝滑程度,让丁琰感到震撼。神秘之处在于,由于GEN-1是闭源模型,外界难以知晓Generalist究竟如何将采集的原始数据进行过滤,从而达到类似大语言模型的“大力出奇迹”效果。

  但这不妨碍一些国内具身智能公司与Generalist对标。一种对标做法落脚在数据采集方案:声称都使用低成本的可穿戴设备获取大量数据,进行模型预训练,并使用少量真机数据微调;另一类对标则是所谓底层方法论吻合:从零开始训练一款原生的物理交互基础模型,而不被现有的VLA或世界模型架构束缚。

  数据采集路线层面的对标从Generalist发布上一代GEN-0模型后便已开始。2025年11月推出的GEN-0模型,基于27万小时无本体数据进行训练,被Generalist自称为首次在机器人领域验证了Scaling Law(缩放定律)的存在。

  采集成本低、供给规模大,是无本体数据相较于传统真机遥操数据的显著优势,但也对公司的算法能力提出更高要求。一位从事具身智能数据采集工作的大厂员工介绍,无本体数据现在是各家都特别关注的方向。GEN-0模型出来后,许多企业都在往无本体数据方向发力,甚至会自研采集设备。丁琰表示:“GEN-1给了整个行业做无本体数据的人信心,感觉像是看不见天花板了。”

  南都记者注意到,2026年以来,银河通用、星海图等国内头部具身智能公司均调整了所谓的“数据金字塔”结构,在原有真机遥操数据、仿真合成数据等的基础上,新纳入无本体数据。千寻智能则进一步迭代自研的可穿戴式数采设备,并将数采团队扩充至千人规模。

  长期以来,人形机器人被嘲讽“没有脑子”,数据短缺是背后的“卡脖子”难题。如今,无本体数据采集方案的兴起,让一些从业者看到了破局的可能性,不少具身智能数据公司也借机浮出水面。

  数据采集范式会加快收敛吗?

  在无本体数据崛起之前,具身智能行业曾围绕真机遥操数据与仿真合成数据上演路线之争。

  支持真机遥操数据的一方强调,具身智能需要高质量的数据,仿真合成数据存在sim2real(仿真到现实)的迁移鸿沟,且难以完美模拟物理摩擦力、物体表面粗糙度等真实世界特性。而以银河通用为代表的仿真合成数据拥护方,则直指真机遥操数据存在采集速度慢、成本高且难以跨本体等短板。

  前述大厂数采业务员工提到,如果用仿真合成数据训练,数据质量达不到要求,模型效果就比较差。真机遥操数据虽然质量高,但卡在规模提不上去,满足不了具身基础模型Scaling Law的需求。他认为,现阶段,“量”比“质”更重要,“数据规模上不去的话,质量再高也不行”。

  据丁琰介绍,传统遥操每小时仅能采集约35条数据,效率较低。在美国,一小时遥操采集的相应成本约为100-200美元,相对高昂。而且,遥操采集的摄像头记录的是机械臂本身的运动轨迹和画面,由于不同厂商的机器人长得都不一样,用一个厂商的机器人采集的数据,很难迁移至其他厂商的机器人身上,产生“数据孤岛”的问题,不同公司之间也不得不“重复造轮子”。

  在此背景下,无本体数据以数采新范式的姿态异军突起。2025年11月,Generalist和另一家美国具身智能模型公司Sunday Robotics分别发布GEN-0和ACT-1两款模型。无独有偶的是,这两款引发业内广泛关注的模型,均采取无本体数据范畴下的UMI(通用操作接口)采集方案——由人工手持二指或三指夹爪演示操作,夹爪旁安装了摄像头,记录夹爪的外观和操作过程。

  根据鹿明机器人基于自研UMI数采设备的测算,相较传统遥操采集,单条UMI数据的效率提升5倍,成本降至1/5。另外UMI数据还具备跨本体的泛化能力。在部署时,只要机器人手部夹爪的外观、摄像头参数与采集时用的手持设备保持一致,无论机器人搭配何种类型的机械臂,所采集的数据均可相互通用。

  除了UMI数采,无本体数据方案中的另一火热方向是Ego-centric数据(第一人称人类视频数据,以下简称Ego数据)。取名“第一人称”,与采集视角有关。在英伟达今年2月中旬推出的EgoScale方案中,采集员佩戴一台头戴式摄像头和两台腕戴式摄像头,分别记录第一人称视角和腕部视角;另外还有追踪器和穿戴手套,分别捕捉人类手臂与手部运动。

  聚焦Ego数据采集业务的初创公司星忆科技创始人宋知珩预测,Generalist初期采用 UMI方案大规模采集数据以验证Scaling Law,后续或将提升Ego数据的比例,并从两指夹爪向更高自由度的抓取方向探索。因为物理AGI的诉求是通用和泛化,这离不开高自由度和包括视觉、触觉、姿态等在内的多模态数据采集。他判断,具身智能数据范式会向Ego数据收敛。

  头部具身智能数据服务商光轮智能联合创始人、总裁杨海波在3月底向南都记者表示,过去,具身智能究竟需要怎样的数据,业内缺乏清晰认知。如今,业界对无本体数据的共识度正在提升。一旦新方向确立,下一步需要做的就是不断加大投入。

  当无本体数据方案蔚然成风,真机遥操数据、仿真合成数据将何去何从?

  “如果你拥有足够高质量且多样化的真实世界数据,那么仿真数据和遥操作数据的价值就会降低。这本质上是一个成本问题。”Generalist联合创始人、首席科学家Andy Zeng在4月初接受南都记者采访时举例说,对于太空机器人,使用仿真数据可能更具经济性,因为将人送入太空的成本非常高昂。

  根据多位业内受访者的观点,真机遥操数据很难被无本体数据完全取代,将主要用于具身智能“大脑”训练完成后、机器人部署到具体场景时的对齐和调优。例如,GEN-1模型在预训练的基础上,执行特定的新任务前再使用1小时的机器人真机数据进行微调。仿真合成数据则适用于人类难以通过可穿戴设备去采集的场景,比如一些高危环境。

  无本体数采供应商浮出水面

  具身智能风口席卷的过去两三年里,资本蜂拥流向了人形机器人本体和“大脑”企业,而作为数据供应商的创业公司鲜少获得同等关注。

  宋知珩告诉南都记者,相较于模型研发和本体制造的企业,国内具身智能数据基建公司的融资规模存在明显差距。这是因为,市场普遍将数据视为一门生意,投资人通常询问“你的数据卖了多少”,并以此作为参考来讨论公司估值。然而,对于从事具身智能模型研发的厂商,市场的评价体系则更偏向长期潜力。即使这些公司零营收或营收很少,也能拿到很高的估值,融到很多的资金。

  “大家对于数据公司的关注度不是那么充分。”宋知珩认为,模型本质上是从数据中提炼智能,模型的架构归根结底来源于数据。

  随着无本体数据成为风口,提供具身智能数据基建服务的创业公司得到市场更多的青睐。

  资本在往这一方向押注。比如,由Momenta前员工陈建兴创办的简智机器人,在2025年12月披露总额超2亿元的三轮融资,投资方包括BV百度风投、速腾聚创、顺为资本、Momenta、星海图等。这家公司开发了数据采集手套、第一视角多模态数据采集头戴式设备等多款可穿戴数采设备。宋知珩所在的星忆科技,也在今年3月拿到千万级首轮融资,由“清华系”水木创投领投。该公司计划推出一款面向Ego方案的多模态数据采集穿戴设备。与此同时,京东于今年3月宣布入局数采业务,计划在一年内积累500万小时人类真实场景视频数据,两年内突破1000万小时,建成全球最大具身数据采集中心。

  市场需求也在向无本体数据靠拢。有提供相关数据产品的公司声称,2026年第一季度的营收超过2025年全年,大厂是重要的采购方。丁琰任职的鹿明机器人目前提供无本体数据采集软硬件系统,据其透露,GEN-1模型推出之后,行业内前来咨询合作的客户数量持续增长。采购方覆盖机器人本体公司、模型公司、科研院所、大厂具身团队等诸多类型。

  而在无本体数据采集设备的需求端,具身智能数采中心是重要的潜在客户。根据市场调研机构Interact Analysis的报告,截至 2025 年年底,中国已经有50个以上的国家或省市区级人形机器人数据采集与训练中心。其中,至少有9个数采中心的机器人数量在100 台左右,至少有5个数采中心的机器人数量在50台左右。这意味着,大量政府背景的数采中心仍以真机遥操数据采集为主要模式。

  但鹿明机器人联合创始人赵广智透露,很多数采厂表达了对无本体数据采集方案的浓厚兴趣。核心原因在于,建设无本体数采工厂可省去购置机器人本体的高额硬件成本;同时能实现数据和硬件本体的解耦,而不受限于某款特定的本体,通过标准化流程直接记录人的操作动作轨迹。宋知珩也告诉记者,数采中心在逐渐增大无本体数据的采集比例。

  不同的数采设备及采集方式,都可能影响无本体数据的质量。

  丁琰提到,如果UMI数采设备在硬件性能和系统设计上存在不足,就会导致采集的数据难以稳定复现,无法用于模型的训练。有了高质量的硬件设备之后,还需要规范采集技巧来提升数据的质量。低质量的数据往往包含大量抖动、漂移、时间错位等无效的冗余信息,很难帮助模型学会如何与世界准确交互。

  在丁琰看来,高质量无本体数据通常需要在严密设计的物理空间内,由经过培训的采集员按照严格的标准流程去操作完成。但Generalist会以众包的方式,将穿戴设备分派给世界各地的普通人承接采集任务。丁琰判断,众包方式获取的数据质量是较大挑战。如此条件下,Generalist训练出的模型却能做出精细化的动作,或依靠强大的数据过滤系统。

  Sunday Robotics同样采用众包数采的做法。该公司联合创始人迟宬在3月于苏黎世联邦理工学院的一场讲座上回应数据质量话题时表示,过滤数据固然重要,但更关键的是,非常清楚地传达到底想要什么,并让采集数据的人与这个目标对齐。

  宋知珩补充说,数采厂尽管可以确保数据收集的质量,但问题在于,数采厂不能复刻所有的真实场景,例如不可能专门搭建一条汽车生产线用于数采。如此一来,在真实场景中自然采集人类视频数据变得必要。这需要把采集设备做得很轻量,将对人类员工在真实场景工作流程的影响降到最低。

  中国具身公司“补课”数据短板

  Generalist以众包方式大规模采集数据,追求“大力出奇迹”,在丁琰看来,这种模式需要对海量数据进行预训练,对算力资源的消耗会比较大。

  尽管Generalist未披露具体使用了多大规模的算力进行训练,但其对自身的算力资源并不讳言。公司在4月7日一篇博客中写到:“如果你拥有足够的数据和算力,从零开始的训练总是能带来胜利。”

  丁琰估算,GEN-1模型使用50万小时数据训练,可能需要大几千张乃至上万张AI芯片支持,“这是挺奢侈的一件事情。”

  面临算力资源限制的情况下,一些中国的具身智能创业公司此前不敢轻易冒险。而当无本体数采方案被Generalist等公司“带火”之后,中国创业公司的相继追随又被一些声音质疑为“抄作业”。

  千寻智能创始人韩峰涛在2月下旬接受《晚点》采访时澄清,公司实际上从2024年就开始做可穿戴设备采集方案,“看到(Generalist)他们的发布,我们也很开心,原来和我们做的是一样的”。他还直言,如果公司一开始能融几亿美元,肯定直接 all in 数据。但在中国创业,如果没有Demo(演示)和商业化苗头,很难持续融资。所以需要花一些精力探索商业化,客观上影响了解决数据问题的速度。

  尽管业界公认具身智能几乎处于早期,但该领域的不少投资人已迫切希望看到创业公司能产生实质的商业化进展。不止一位投资人向南都记者表达过类似的言论:创业公司的落地能力、能否拿到商业化订单,是做投资决策的重要依据。

  资本层面对商业化的催熟背后,被认为源于中美两国的创投生态差异。有业内人士观察,美国的投资机构,目前对于具身智能的商业化“好像不是那么在乎”,可以容忍创业公司去疯狂地探索和试错。宋知珩亦有类似的体感——中国的投资人对创业公司的经营有很高要求,需要公司做一些“沿途下蛋”的事情。

  投融资环境的差异,进一步塑造了中美具身智能创业公司的不同行为模式。“国内公司非常注重落地,要把story讲得非常饱满。”在今年1月下旬的一档播客中,国地共建具身智能机器人创新中心首席研究员张强表示,像Physical Intelligence(Pi)、Sunday Robotics的风格不同,“Pi除非哪天扔出来一个ChatGPT这样的产品,否则在那之前都不会落地。”

  但宋知珩分析认为,中美具身路线差异,也与各自的制造业基础息息相关。美国制造业空心化严重,创业公司往往不会优先打造高性能机器人本体,而是直接投入到物理AGI模型的研发中。相反,中国拥有先天的制造业基础,在产业策略上更容易先从本体能力切入。随着机器人本体性能和运动控制算法逐渐成熟,行业已经走到需要弥补相对落后的具身智能模型开发、解决数据问题的时间点了。“中国的(具身智能)故事,也开始转向美国故事的模式。”

(文章来源:南方都市报)