具身智能数据工厂:产业发展的“燃料”基地
AI导读:
近日,帕西尼具身智能超级数据工厂在天津投用,解决数据短缺瓶颈。国内多地建立数据采集工厂,通过不同方式采集数据赋能产业。行业专家称,数据采集需与产业需求结合,统一与规范是加速发展的基础。
数据被称为具身智能产业发展的“燃料”。近日,帕西尼具身智能超级数据工厂(Super EID Factory)在天津空天数字产业园投用。帕西尼感知科技创始人兼CEO许晋诚表示,数据短缺是具身智能发展瓶颈,目前产业可用数据量仅为大语言模型的几百分之一。
国内多地已建立具身智能数据采集工厂,如帕西尼在天津的工厂、智元机器人在上海的工厂等。记者探访发现,这些工厂正通过不同方式采集数据,赋能产业发展。行业专家称,数据采集工厂建设刚起步,需与产业需求结合,统一与规范是加速发展的基础。
在天津空天数字产业园,帕西尼工厂生产的核心产品是“数据”。许晋诚称,从数据中进行模仿学习是具身智能模型进化的最具潜力途径之一,但目前数据短缺。工厂大厅的大屏幕显示数据采集情况,合格率达92%以上,每天最多可采集55万条数据。
高工机器人产业研究所所长卢瀚宸表示,训练具身智能大模型的数据主要分为仿真合成数据和真实数据两大类。真实数据采集成本最高、难度最大,但质量最好。在上海浦东,智元数据采集中心已启动,百台机器人在不同场景中忙碌作业,已累计采集超百万条高质量数据。
卢瀚宸认为,具身智能领域尚无人能证明通过大规模数据训练“复现”大语言模型的成功,但要让机器人更“智能”,必须通过大量数据采集和大模型训练。同时,数据采集必须与产业需求结合,方能实现闭环。
厂商对真实数据的采集方式各异。帕西尼采用“人类数据采集”方式,数据采集员穿戴设备采集动作数据。许晋诚认为,这种方式具备独特优势。智元机器人则主要采用机器人遥操作采集方法,提升机器人执行任务的鲁棒性。
如何让具身智能产业可用数据规模快速扩充?帕西尼和智元机器人都选择构建开放生态。但具身智能数据的标准化问题仍是行业痛点。埃夫特董事长游玮表示,缺乏数据采集规范,当前采集的数据难以被迁移和复用。
卢瀚宸认为,数据标准化和质量提升是关键,但这一过程并不容易。为推动数据采集的高效利用,许晋诚表示,帕西尼正在参与订立数据采集方面的标准,并将于近期发布。
(文章来源:中国证券报)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

