AI导读:

2025年人形机器人与具身智能赛道火热,王鹤博士指出数据短缺是制约人形机器人大规模落地应用的根本原因,合成数据或成解决之道,银河通用已积累百亿级合成仿真数据。

2025年,对人形机器人和具身智能赛道的创业者而言,都是特殊的一年。7月10日,在2025年新京报贝壳财经年会上,北京大学助理教授、银河通用机器人创始人及首席技术官王鹤博士发表题为《合成数据赋能的具身大模型开启工商业场景规模化落地》的主旨演讲。

王鹤认为,多模态模型的下一步发展方向就是将机器人的动作作为输出模态,即VLA(Vision-Language-Action)大模型。他指出数据短缺是制约人形机器人大规模落地应用的根本原因,公开数据集与所需数据量相差好几个数量级。

投资界和产业界喜欢将具身智能的发展史与自动驾驶的发展史进行类比,但王鹤指出目前人形机器人仍有两个挑战:一是出货量远低于新能源汽车;二是不能像买车一样马上产生使用价值。

王鹤分析,不完全依赖真实数据的采集,而是更多使用合成数据在仿真器里进行大规模的强化学习,是解决困境的方式。银河通用自研仿真数据合成管线,已积累了亿级真实应用场景数据及百亿级的合成仿真数据。

银河通用实际上是一家很新的公司,2023年5月注册成立于海淀,是一家基于具身大模型的通用机器人研发公司,其愿望是用通用机器人赋能千行百业,服务千家万户。

当前中国制造业不断发展,但尚未达到“智造”,人工智能尤其是基于数据驱动的人工智能占比不高。人形机器人真正自主干活在全球均未大规模应用。

大模型对具身智能有极大的推动性作用,但这些通用大模型仍不足以让机器人干活。多模态大模型要做的是将视觉感知和语言交互等作为输入,机器人动作作为输出,这是具身智能与大模型融合的新趋势,即VLA(Vision-Language-Action)大模型。

关于数据问题,美国的解决方法是人穿动捕服或用遥控器操纵机器人采集数据,这存在两大劣势:存量不足;卖给客户的无应用功能的机器人无法采集有效的任务数据,且耗时。

中国企业在人形机器人赛道有“领跑”机会,就是使用合成数据,而非完全依赖真实世界的数据。通过数字资产制造大量运动轨迹和标签,在仿真器里进行大规模强化学习,实现从数据资产到运动轨迹到Sim2Real的全链条。

基于完全无需真实世界采集的十亿级合成大数据,训练出端到端具身大模型GraspVLA。推出全球首个人形机器人智慧零售解决方案,在北京的店里,机器人真实抓药,目前北京已有10家门店,今年计划开设100家药店。

具身大模型还可以赋能四足机器人陪伴逛商场。算法实时给出跟随轨迹,借助室内自动驾驶技术让机器狗灵巧移动。银河通用用合成数据打造的具身大模型,把各种能力融为一体,完成了数轮融资,累计融资了24亿元人民币。

(文章来源:新京报)