智元机器人发布通用具身基座模型，引领机器人产业革新

财经聚焦 2025-03-10 10:58:03 来源：上观新闻作者：网络

AI导读：

智元机器人发布首个通用具身基座模型——智元启元大模型，该模型由VLM+MoE构成，具备革命性学习能力，可广泛应用于各类环境和物品中。通过ViLLA创新性架构，GO-1在五种不同复杂度任务上测试表现优异，推动机器人产业革新。

　　总部位于上海的智元机器人联合创始人兼CTO 稚晖君（彭志辉）上周末在微博预告称，“下周智元机器人有好东西发布”。

　　今天，这个“好东西”终于亮相了。智元机器人正式发布了首个通用具身基座模型——智元启元大模型（Genie Operator-1），该模型由VLM（多模态大模型） + MoE（混合专家）构成，通过整合人类和多种机器人数据，赋予机器人革命性的学习能力，使其能广泛应用于各类环境和物品中，快速适应新任务、学习新技能。同时，该模型还支持部署到不同机器人本体，实现高效落地，并在实际应用中持续进化。

　　具身智能的核心在于机器人感知物理世界并进行实时交互的能力。大语言模型、多模态模型以及推理模型等AI技术，使机器人具备了听、说、看的能力，并能理解世界以及进行逻辑推理等决策。

　　智元机器人研究院执行院长、智元具身智能事业部总裁姚卯青介绍，智元启元大模型创新性地提出了Vision-Language-Latent-Action（ViLLA）架构，其中VLM（多模态大模型）借助海量互联网图文数据，获得通用场景感知和语言理解能力；MoE（混合专家）中的Latent Planner（隐式规划器）借助大量跨本体和人类操作视频数据，获得通用的动作理解能力；MoE中的Action Expert（动作专家）则借助百万真机数据，获得精细的动作执行能力。这三者相辅相成，实现了利用人类视频学习，完成小样本快速泛化，降低了具身智能门槛，并成功部署到智元多款机器人本体，推动具身智能迈上新台阶。

人形机器人服务场景。智元机器人提供

　　此前，智元机器人推出了自主研发的大型仿真框架AgiBot Digital World，该框架包含超过100万条轨迹、涵盖217个任务、涉及五大场景的大规模高质量真机数据集，为机器人操作提供了灵活的仿真数据生成方案、预训练的大规模仿真数据和统一的模型评测标准，并同步开源了海量仿真数据。

　　尽管AgiBot World数据集已经是全球最大的机器人真机示教数据集，但高质量带动作标签的真机数据量仍然有限，远少于互联网规模的数据集。为此，智元机器人采用Latent Actions（隐式动作）来建模当前帧和历史帧之间的隐式变化，然后通过Latent Planner预测这些Latent Actions，从而将异构数据源中真实世界的动作知识转移到通用操作任务中。

　　借助ViLLA创新性架构，GO-1在五种不同复杂度任务上的测试表现优于现有最优模型，平均成功率提高了32%。其中，倒水、清理桌面和补充饮料等任务表现尤为突出。

　　目前，智元机器人拥有三条主打产品线：远征、Genie和灵犀。远征系列主要针对商用场景的双足人形机器人远征A1、A2；Genie系列则面向通用具身操作的轮式双臂机器人G1；灵犀系列则用于拓展家用场景的小型人形机器人，目前已发布X1，预计下半年将发布面向机器人发烧友的产品X2。

　　智元机器人位于上海自贸区临港的制造工厂已于2024年10月投产，并计划在上海张江建设年产能约1万台的人形机器人二期工厂，进一步推动机器人产业的发展。

（文章来源：上观新闻）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。