华为发布盘古Ultra MoE，国产AI技术迎新突破

财经聚焦 2025-05-30 18:51:17 来源：券商中国作者：网络

AI导读：

华为在MoE模型训练领域取得突破，推出参数规模高达7180亿的全新模型——盘古Ultra MoE。此举标志着国产AI基础设施的自主创新能力得到显著提升，为国内AI模型竞争注入新活力。

　　中国AI产业迎来重大利好。5月30日，券商中国记者从华为获悉，华为在MoE模型训练领域取得突破，重磅推出参数规模高达7180亿的全新模型——盘古Ultra MoE，这是全流程在昇腾AI计算平台上训练的准万亿MoE模型。同时，华为发布了盘古Ultra MoE模型架构和训练方法的技术报告，披露了众多技术细节，充分展现了昇腾在超大规模MoE训练性能上的卓越实力。华为AI技术新突破

　　业内人士分析，华为盘古Ultra MoE和盘古Pro MoE系列模型的发布，标志着华为不仅成功实现了国产算力+国产模型的全流程自主可控训练实践，同时在集群训练系统的性能上也达到了业界领先水平。这一成就意味着国产AI基础设施的自主创新能力得到了显著提升，为中国人工智能产业的蓬勃发展注入了强劲动力。

　　据悉，训练超大规模和极高稀疏性的MoE模型极具挑战性，稳定性难以保障。华为盘古团队在模型架构和训练方法上进行了创新设计，成功在昇腾平台上实现了准万亿MoE模型的全流程训练。在模型架构上，盘古团队提出了DSSN稳定架构和TinyInit小初始化的方法，实现了超过18TB数据的长期稳定训练。同时，盘古Ultra MoE采用了先进的MLA和MTP架构，实现了模型效果与效率之间的最佳平衡。

　　在训练方法上，华为团队首次披露了在昇腾CloudMatrix 384超节点上高效打通大稀疏比MoE强化学习后训练框架的关键技术。同时，华为团队在短时间内完成了一轮迭代升级，包括适配昇腾硬件的自适应流水掩盖策略、自适应管理内存优化策略等，使万卡集群预训练MFU大幅提升至41%。

　　此外，盘古Pro MoE大模型在参数量较少的情况下，通过创新设计实现了以小打大的优异性能，在SuperCLUE排行榜上位居国内前列。这一成就进一步证明了华为在国产AI算力平台上训练和优化超大规模稀疏模型的能力。

　　国内AI模型竞争白热化

　　近期，国内AI模型领域消息不断。5月28日，深度求索公司传来消息，Deepseek-R1模型已完成小版本试升级。这家总部位于杭州的初创公司今年发布的DeepSeek-R1人工智能模型在多项标准化指标上表现优异，引发了全球科技界的关注。同时，腾讯也在积极布局大模型领域，腾讯混元在全球公认的大语言模型评测平台上排名不断攀升，技术能力持续提升。

　　5月29日，腾讯旗下多款AI应用宣布接入DeepSeek R1模型，用户可以在不同产品中体验到DeepSeek模型的深度思考、编程和长文本处理等能力。这一举措进一步推动了国内AI模型的应用和发展。

（文章来源：券商中国）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。