智元机器人发布通用具身基座模型,引领机器人产业革新
AI导读:
智元机器人发布首个通用具身基座模型——智元启元大模型,该模型由VLM+MoE构成,具备革命性学习能力,可广泛应用于各类环境和物品中。通过ViLLA创新性架构,GO-1在五种不同复杂度任务上测试表现优异,推动机器人产业革新。
总部位于上海的智元机器人联合创始人兼CTO 稚晖君(彭志辉)上周末在微博预告称,“下周智元机器人有好东西发布”。
今天,这个“好东西”终于亮相了。智元机器人正式发布了首个通用具身基座模型——智元启元大模型(Genie Operator-1),该模型由VLM(多模态大模型) + MoE(混合专家)构成,通过整合人类和多种机器人数据,赋予机器人革命性的学习能力,使其能广泛应用于各类环境和物品中,快速适应新任务、学习新技能。同时,该模型还支持部署到不同机器人本体,实现高效落地,并在实际应用中持续进化。
具身智能的核心在于机器人感知物理世界并进行实时交互的能力。大语言模型、多模态模型以及推理模型等AI技术,使机器人具备了听、说、看的能力,并能理解世界以及进行逻辑推理等决策。
智元机器人研究院执行院长、智元具身智能事业部总裁姚卯青介绍,智元启元大模型创新性地提出了Vision-Language-Latent-Action(ViLLA)架构,其中VLM(多模态大模型)借助海量互联网图文数据,获得通用场景感知和语言理解能力;MoE(混合专家)中的Latent Planner(隐式规划器)借助大量跨本体和人类操作视频数据,获得通用的动作理解能力;MoE中的Action Expert(动作专家)则借助百万真机数据,获得精细的动作执行能力。这三者相辅相成,实现了利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,并成功部署到智元多款机器人本体,推动具身智能迈上新台阶。

人形机器人服务场景。智元机器人提供
此前,智元机器人推出了自主研发的大型仿真框架AgiBot Digital World,该框架包含超过100万条轨迹、涵盖217个任务、涉及五大场景的大规模高质量真机数据集,为机器人操作提供了灵活的仿真数据生成方案、预训练的大规模仿真数据和统一的模型评测标准,并同步开源了海量仿真数据。
尽管AgiBot World数据集已经是全球最大的机器人真机示教数据集,但高质量带动作标签的真机数据量仍然有限,远少于互联网规模的数据集。为此,智元机器人采用Latent Actions(隐式动作)来建模当前帧和历史帧之间的隐式变化,然后通过Latent Planner预测这些Latent Actions,从而将异构数据源中真实世界的动作知识转移到通用操作任务中。
借助ViLLA创新性架构,GO-1在五种不同复杂度任务上的测试表现优于现有最优模型,平均成功率提高了32%。其中,倒水、清理桌面和补充饮料等任务表现尤为突出。
目前,智元机器人拥有三条主打产品线:远征、Genie和灵犀。远征系列主要针对商用场景的双足人形机器人远征A1、A2;Genie系列则面向通用具身操作的轮式双臂机器人G1;灵犀系列则用于拓展家用场景的小型人形机器人,目前已发布X1,预计下半年将发布面向机器人发烧友的产品X2。
智元机器人位于上海自贸区临港的制造工厂已于2024年10月投产,并计划在上海张江建设年产能约1万台的人形机器人二期工厂,进一步推动机器人产业的发展。
(文章来源:上观新闻)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

