AI导读:

华为针对AI算力集群提出了超节点高可用、集群线性度、万卡集群训练快速恢复等全维度创新方案,确保AI训练和推理能够24小时不停工,打造高效自愈的下一代算力基础设施。

你是否注意到,现在的AI越来越“聪明”了?能写小说、做翻译,甚至帮医生看CT片,这些能力背后离不开一个默默工作的“超级大脑工厂”——AI算力集群。随着人工智能的发展,从简单规则判断进化到能处理万亿参数的大模型,单台计算机的算力已无法满足需求,而算力集群则像一艘能承载巨量计算任务的“算力航空母舰”。

当我们把上万台计算机整合成一个有机整体时,如何确保它们像精密钟表一样协同工作?华为团队通过一系列创新技术,驯服了这头算力巨兽,让AI训练和推理能够24小时不停工。比如,算力集群中的每台计算机都有“备用替身”,确保任务不会因个别设备故障而中断。此外,华为还提出了面向整个超节点的故障容错方案,包括系统层容错、业务层容错和运维层容错,将故障问题转为亚健康问题,通过运维手段优雅消除。

超节点高可用,保障智能工厂不停工

就像医院的急诊系统,AI训练和推理也不能轻易中断。华为通过创新技术,实现了算力集群的超节点高可用,确保自动驾驶训练、语音识别等任务能够持续运行。

集群线性度,实现人多力量大的完美协作

理想情况下,算力应该随计算机数量的增加而线性增长。华为团队通过拓扑感知的协同编排技术、网络级网存算融合技术等四项关键技术,实现了盘古模型训练的线性度提升。

万卡集群训练快速恢复,避免从头再来的浪费

在训练超大规模模型时,华为团队提出了进程级重调度恢复、进程级在线恢复和算子级在线恢复等创新技术,实现了万卡集群训练的分钟级快速恢复。

超大规模MoE模型推理容错,最小化用户损失

针对超大规模MoE模型带来的可靠性难题,华为提出了三级容错方案,包括实例间切换、实例内重启恢复和实例内无损恢复,确保推理业务的连续性和稳定性。

故障管理与感知诊断,24小时在线的设备医生

算力集群中的实时监控系统就像给每台计算机安装了“健康手环”,持续监测各项指标。华为团队提供了一套完整的故障管理解决方案,包括基于CloudMatrix 384超节点的设备物理形态和组网方案的昇腾AI硬件灾备高可靠架构设计,以及面向算力集群的故障感知能力等。

建模仿真,算力底座的“数字化风洞”

在正式开展复杂AI模型的训推之前,算力集群可以先在虚拟环境中进行建模仿真。华为团队提出了系统化、可扩展的马尔科夫建模仿真平台,实现集群资源高效配置与动态优化。

框架迁移,给模型跑车换更酷炫轮胎

华为推出的全场景AI框架昇思MindSpore全面开源以来,开发者生态迅速成长。昇思MindSpore提供了拥抱主流生态的兼容方案,实现第三方框架的无缝迁移和一键部署。

总结与展望

综上所述,华为团队在AI算力集群基础设施方面提出了全维度创新方案。未来,算力基础设施的演进将走上算法-算力-工程协同进化的道路,实现高效、弹性、自愈的下一代算力基础设施。

(文章来源:每日经济新闻)