AI导读:

  具身智能正从实验室走向工厂、家庭和医院,但数据这个瓶颈制约了行业的发展。4月16日,京东推出覆盖“采、存、标、训、评、仿、测”全链路的具身智能数据基础设施,并对外展示了自研超高清采集终端JoyEgoCam、具身大

K图 JD_0

  具身智能正从实验室走向工厂、家庭和医院,但数据这个瓶颈制约了行业的发展。4月16日,京东推出覆盖“采、存、标、训、评、仿、测”全链路的具身智能数据基础设施,并对外展示了自研超高清采集终端JoyEgoCam、具身大模型JoyAI-RA、具身智能数据交易平台等,试图为陷入数据困局的具身智能企业上下游提供底层支撑。根据相关报告,我国具身智能产业市场规模有望在2030年达到4000亿元。高质量数据的供给是产业规模化落地的关键。

图片来源:京东供图

  3月,京东宣布将建成全球最大具身数据采集中心;4月16日,京东发布首个具身数据全链路基础设施,打通从数据采集到模型测试的全流程闭环,将原始杂乱数据精炼为驱动模型进化的高价值“数据燃料”。

  以此为基础,京东将构建全球规模最大的具身智能数据采集中心,发动最多60万人进行“大规模数据采集行动”,在两年内积累1000万小时人类真实场景视频数据,加速真实场景下的模型迭代优化,为机器人企业、具身模型研发机构、汽车厂商、医疗机构等各行业客户提供全流程数据服务。

  在采集端,京东云自研的可穿戴式超高清采集终端JoyEgoCam,从清晰度、精准度、便携性、稳定性四个维度保障了源头数据质量,可在物流、零售、医疗、家庭等多种场景下“即戴即采”。

  采集后的数据汇入AI数据湖平台,经PB级吞吐能力自动完成清洗、对齐、转换与预标注,再通过JoyBuilder仿真平台批量生成高逼真仿真数据,实现人类操作数据向仿真操作数据、真机操作数据的转换与泛化扩增。

  “硬件发展很快,但大脑模型缺乏数据支撑,很多机器人能唱歌跳舞,却无法应用在真实的生产环节。”京东集团技术委员会主席、京东云总裁曹鹏在发布会上指出,行业训练一个具备泛化能力的具身大模型至少需要1000万小时真实场景数据,而目前市场可用数据集仅有几十万小时,“数据已经成为制约整个具身智能行业向前发展的关键痛点”。曹鹏强调,现有数据集普遍存在场景多样性不足、本体依赖性强、跨本体迁移困难等问题,难以支撑真正具有泛化能力的模型训练。

  数据背后是京东在零售、物流、工业、健康等场景的资源积累——超过3600个仓库、过万线下门店、20多万药房以及5万家政人员的服务网络构成了天然的数据采集场域。

  除了自建采集体系,京东还上线了具身智能数据交易平台,首批定向开放2000小时高精标注数据集,打通数据合规交易通道。曹鹏表示,该平台一方面开放京东自身采集的高精标注数据,另一方面希望聚合合作伙伴的数据资源,“光靠我们自己一家来做肯定做不好,需要更多伙伴一起把数据在数量、丰富度和质量上都做提升”。这一开放策略试图回应行业内数据孤岛、标准不一、难以流通的普遍困境。

(文章来源:北京商报)