AI导读:

过去一年,具身智能领域迎来爆发式增长。近日举行的北京智源大会上,专家学者分享前沿研究与产业实践,探讨具身智能的技术路线、数据瓶颈突破及未来应用前景。

  人民网北京6月11日电 (记者赵竹青)过去一年,具身智能领域取得了爆发式增长,成为人工智能与机器人技术融合的前沿赛道。在近日举办的北京智源大会上,众多专家学者齐聚一堂,分享前沿研究成果与产业实践,共同探讨如何推动具身智能从实验室走向更广泛的应用场景。

  在具身智能的技术架构与基础理论方面,清华大学教授孙富春指出,世界模型是全要素的综合体现,空间智能是其向视觉空间的映射,强调触觉反馈的重要性高于视觉反馈,需构建包含物理属性的沉浸式数字物理系统。

  清华大学研究员、机器人控制实验室主任赵明国提出,类脑算法可成为传统控制器的替代方案,人形机器人的发展需从运动控制向视觉决策等高级功能升级,人类进化的底层运动智能为我们提供了宝贵的启示。

  针对具身智能的数据瓶颈问题,北京大学助理教授、智源具身智能研究中心主任王鹤主张采用以合成数据为主、真实数据校准的训练模式,通过十亿级高质量仿真数据训练的端到端模型,实现零样本泛化,已在零售、工业等领域逐步得到应用。

  上海人工智能实验室青年科学家、具身智能中心负责人庞江淼认为,合成数据有助于本体和场景的泛化,但要实现全合成数据的零样本泛化,还需持续提升合成数据质量,并适当减少真实数据采集。

  北京大学副教授卢宗青提出,利用互联网视频预训练姿态生成模型,学习人类运动先验知识,以解决人形机器人数据稀缺的问题。

  清华大学交叉信息研究院助理教授高阳指出,机器人数据采集成本高且难以用语言准确描述,形成恶性循环。他建议利用互联网视频数据预训练模型,再迁移到机器人遥操作数据进行微调,结合强化学习,缩小仿真与现实的差距。

  在构建具身智能的通用泛化能力方面,智源具身多模态大模型中心负责人、北京大学计算机学院助理教授仉尚航认为,构建具身快慢系统是具身智能从“单一任务/本体”迈向“通用泛化”的关键。他提出了“大脑(推理)+小脑(控制)”的分层快慢系统和VLA端到端快慢系统两条技术路线,以解决跨本体与场景的泛化问题。

  北京邮电大学教授方斌表示,视触觉感知是具身智能从“感知”迈向“精准操作”的关键环节,需通过传感器创新、仿真数据增强与多模态融合等技术手段,解决动态环境下的操作稳定性与泛化性难题。

  关于具身智能的未来应用前景,智源研究院理事长黄铁军总结道,预计在未来5-10年内,具身智能有望替代人类从事不愿干或危险的劳动。然而,这并非其终极目标。在更远的未来,具身智能有望全面超越人类,代表人类探索星际。

(文章来源:人民网)