华为发布盘古Ultra MoE,国产AI技术迎新突破
AI导读:
华为在MoE模型训练领域取得突破,推出参数规模高达7180亿的全新模型——盘古Ultra MoE。此举标志着国产AI基础设施的自主创新能力得到显著提升,为国内AI模型竞争注入新活力。
中国AI产业迎来重大利好。5月30日,券商中国记者从华为获悉,华为在MoE模型训练领域取得突破,重磅推出参数规模高达7180亿的全新模型——盘古Ultra MoE,这是全流程在昇腾AI计算平台上训练的准万亿MoE模型。同时,华为发布了盘古Ultra MoE模型架构和训练方法的技术报告,披露了众多技术细节,充分展现了昇腾在超大规模MoE训练性能上的卓越实力。华为AI技术新突破
业内人士分析,华为盘古Ultra MoE和盘古Pro MoE系列模型的发布,标志着华为不仅成功实现了国产算力+国产模型的全流程自主可控训练实践,同时在集群训练系统的性能上也达到了业界领先水平。这一成就意味着国产AI基础设施的自主创新能力得到了显著提升,为中国人工智能产业的蓬勃发展注入了强劲动力。
据悉,训练超大规模和极高稀疏性的MoE模型极具挑战性,稳定性难以保障。华为盘古团队在模型架构和训练方法上进行了创新设计,成功在昇腾平台上实现了准万亿MoE模型的全流程训练。在模型架构上,盘古团队提出了DSSN稳定架构和TinyInit小初始化的方法,实现了超过18TB数据的长期稳定训练。同时,盘古Ultra MoE采用了先进的MLA和MTP架构,实现了模型效果与效率之间的最佳平衡。
在训练方法上,华为团队首次披露了在昇腾CloudMatrix 384超节点上高效打通大稀疏比MoE强化学习后训练框架的关键技术。同时,华为团队在短时间内完成了一轮迭代升级,包括适配昇腾硬件的自适应流水掩盖策略、自适应管理内存优化策略等,使万卡集群预训练MFU大幅提升至41%。
此外,盘古Pro MoE大模型在参数量较少的情况下,通过创新设计实现了以小打大的优异性能,在SuperCLUE排行榜上位居国内前列。这一成就进一步证明了华为在国产AI算力平台上训练和优化超大规模稀疏模型的能力。
国内AI模型竞争白热化
近期,国内AI模型领域消息不断。5月28日,深度求索公司传来消息,Deepseek-R1模型已完成小版本试升级。这家总部位于杭州的初创公司今年发布的DeepSeek-R1人工智能模型在多项标准化指标上表现优异,引发了全球科技界的关注。同时,腾讯也在积极布局大模型领域,腾讯混元在全球公认的大语言模型评测平台上排名不断攀升,技术能力持续提升。
5月29日,腾讯旗下多款AI应用宣布接入DeepSeek R1模型,用户可以在不同产品中体验到DeepSeek模型的深度思考、编程和长文本处理等能力。这一举措进一步推动了国内AI模型的应用和发展。
(文章来源:券商中国)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

