华为发布盘古Ultra MoE模型，引领AI技术创新

财经聚焦 2025-05-31 21:17:28 来源：新京报作者：网络

AI导读：

华为近日推出参数规模高达7180亿的盘古Ultra MoE模型，全流程在昇腾AI计算平台上训练。该模型在模型架构和训练方法上进行了创新性设计，成功实现全流程训练。同时发布的盘古Pro MoE大模型在参数量较少的情况下表现出色，标志着华为在AI技术领域的又一次飞跃。

近日，华为在MoE模型训练领域取得了重大突破，重磅推出参数规模高达7180亿的全新模型——盘古Ultra MoE，这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。华为同时发布了盘古Ultra MoE模型架构和训练方法的技术报告，披露了众多技术细节，充分展示了昇腾在超大规模MoE训练性能上的卓越能力。

训练超大规模和极高稀疏性的MoE模型极具挑战性，尤其是训练过程中的稳定性难以保障。针对这一难题，盘古团队在模型架构和训练方法上进行了创新性设计，成功在昇腾平台上实现了准万亿MoE模型的全流程训练，这标志着华为在AI技术领域的又一次飞跃。

在模型架构方面，盘古团队提出了Depth-Scaled Sandwich-Norm（DSSN）稳定架构和TinyInit小初始化的方法，确保了超过18TB数据的长期稳定训练。此外，他们还引入了EP loss负载优化方法，有效提升了专家之间的负载均衡和领域特化能力。同时，盘古Ultra MoE采用了业界先进的MLA和MTP架构，结合Dropless训练策略，实现了超大规模MoE架构在模型效果与效率之间的最佳平衡。

在训练方法上，华为团队首次在昇腾CloudMatrix 384超节点上高效打通了大稀疏比MoE强化学习（RL）后训练框架的关键技术，引领RL后训练进入超节点集群时代。此外，在预训练系统加速技术的基础上，华为团队在短时间内完成了一轮迭代升级，包括适配昇腾硬件的自适应流水掩盖策略、优化算子执行序、降低Host-Bound、提升EP通信掩盖等，进一步提升了集群训练系统的性能。

近期发布的盘古Pro MoE大模型同样表现出色，在参数量仅为720亿的情况下，通过动态激活专家网络的创新设计，实现了以小打大的优异性能，甚至媲美千亿级模型的性能表现。在SuperCLUE榜单上，盘古Pro MoE位居千亿参数量以内大模型排行并列国内第一。

华为盘古Ultra MoE和盘古Pro MoE系列模型的发布，不仅证明了华为在国产算力+国产模型全流程自主可控训练实践上的成功，同时也展示了华为在集群训练系统性能上的业界领先地位。这标志着国产AI基础设施的自主创新能力得到了进一步验证，为中国人工智能产业的发展注入了新的动力。

（文章来源：新京报）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。