AI导读:

华为近日推出参数规模高达7180亿的盘古Ultra MoE模型,全流程在昇腾AI计算平台上训练。该模型在模型架构和训练方法上进行了创新性设计,成功实现全流程训练。同时发布的盘古Pro MoE大模型在参数量较少的情况下表现出色,标志着华为在AI技术领域的又一次飞跃。

近日,华为在MoE模型训练领域取得了重大突破,重磅推出参数规模高达7180亿的全新模型——盘古Ultra MoE,这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。华为同时发布了盘古Ultra MoE模型架构和训练方法的技术报告,披露了众多技术细节,充分展示了昇腾在超大规模MoE训练性能上的卓越能力。

训练超大规模和极高稀疏性的MoE模型极具挑战性,尤其是训练过程中的稳定性难以保障。针对这一难题,盘古团队在模型架构和训练方法上进行了创新性设计,成功在昇腾平台上实现了准万亿MoE模型的全流程训练,这标志着华为在AI技术领域的又一次飞跃。

在模型架构方面,盘古团队提出了Depth-Scaled Sandwich-Norm(DSSN)稳定架构和TinyInit小初始化的方法,确保了超过18TB数据的长期稳定训练。此外,他们还引入了EP loss负载优化方法,有效提升了专家之间的负载均衡和领域特化能力。同时,盘古Ultra MoE采用了业界先进的MLA和MTP架构,结合Dropless训练策略,实现了超大规模MoE架构在模型效果与效率之间的最佳平衡。

在训练方法上,华为团队首次在昇腾CloudMatrix 384超节点上高效打通了大稀疏比MoE强化学习(RL)后训练框架的关键技术,引领RL后训练进入超节点集群时代。此外,在预训练系统加速技术的基础上,华为团队在短时间内完成了一轮迭代升级,包括适配昇腾硬件的自适应流水掩盖策略、优化算子执行序、降低Host-Bound、提升EP通信掩盖等,进一步提升了集群训练系统的性能。

近期发布的盘古Pro MoE大模型同样表现出色,在参数量仅为720亿的情况下,通过动态激活专家网络的创新设计,实现了以小打大的优异性能,甚至媲美千亿级模型的性能表现。在SuperCLUE榜单上,盘古Pro MoE位居千亿参数量以内大模型排行并列国内第一。

华为盘古Ultra MoE和盘古Pro MoE系列模型的发布,不仅证明了华为在国产算力+国产模型全流程自主可控训练实践上的成功,同时也展示了华为在集群训练系统性能上的业界领先地位。这标志着国产AI基础设施的自主创新能力得到了进一步验证,为中国人工智能产业的发展注入了新的动力。

(文章来源:新京报)