华为发布盘古Ultra MoE模型,引领AI技术创新
AI导读:
华为近日推出参数规模高达7180亿的盘古Ultra MoE模型,全流程在昇腾AI计算平台上训练。该模型在模型架构和训练方法上进行了创新性设计,成功实现全流程训练。同时发布的盘古Pro MoE大模型在参数量较少的情况下表现出色,标志着华为在AI技术领域的又一次飞跃。
近日,华为在MoE模型训练领域取得了重大突破,重磅推出参数规模高达7180亿的全新模型——盘古Ultra MoE,这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。华为同时发布了盘古Ultra MoE模型架构和训练方法的技术报告,披露了众多技术细节,充分展示了昇腾在超大规模MoE训练性能上的卓越能力。
训练超大规模和极高稀疏性的MoE模型极具挑战性,尤其是训练过程中的稳定性难以保障。针对这一难题,盘古团队在模型架构和训练方法上进行了创新性设计,成功在昇腾平台上实现了准万亿MoE模型的全流程训练,这标志着华为在AI技术领域的又一次飞跃。
在模型架构方面,盘古团队提出了Depth-Scaled Sandwich-Norm(DSSN)稳定架构和TinyInit小初始化的方法,确保了超过18TB数据的长期稳定训练。此外,他们还引入了EP loss负载优化方法,有效提升了专家之间的负载均衡和领域特化能力。同时,盘古Ultra MoE采用了业界先进的MLA和MTP架构,结合Dropless训练策略,实现了超大规模MoE架构在模型效果与效率之间的最佳平衡。
在训练方法上,华为团队首次在昇腾CloudMatrix 384超节点上高效打通了大稀疏比MoE强化学习(RL)后训练框架的关键技术,引领RL后训练进入超节点集群时代。此外,在预训练系统加速技术的基础上,华为团队在短时间内完成了一轮迭代升级,包括适配昇腾硬件的自适应流水掩盖策略、优化算子执行序、降低Host-Bound、提升EP通信掩盖等,进一步提升了集群训练系统的性能。
近期发布的盘古Pro MoE大模型同样表现出色,在参数量仅为720亿的情况下,通过动态激活专家网络的创新设计,实现了以小打大的优异性能,甚至媲美千亿级模型的性能表现。在SuperCLUE榜单上,盘古Pro MoE位居千亿参数量以内大模型排行并列国内第一。
华为盘古Ultra MoE和盘古Pro MoE系列模型的发布,不仅证明了华为在国产算力+国产模型全流程自主可控训练实践上的成功,同时也展示了华为在集群训练系统性能上的业界领先地位。这标志着国产AI基础设施的自主创新能力得到了进一步验证,为中国人工智能产业的发展注入了新的动力。
(文章来源:新京报)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

