AI导读:

上海人工智能实验室发布DeepLink超大规模跨域混训技术方案,支持千公里多智算中心跨域长稳混训千亿参数大模型,解决远距离跨域混训的数据同步和稳定性难题,以及异构混训效率低下问题。

  新华财经上海7月21日电 近日,上海人工智能实验室发布DeepLink超大规模跨域混训技术方案,该方案支持千公里多智算中心跨域长稳混训千亿参数大模型。例如,能够跨越1500公里连接上海和济南之间的智算中心,实现北京、上海与贵州等多地智算中心互联和大模型混训等。

  上海人工智能实验室介绍,随着人工智能研究及产业应用深化,算力需求持续增长,但国内智算中心存在建设分散、采购芯片代次差异大、算力资源碎片化等情况,难以灵活、低成本获取大算力。为此,实验室攻克了大规模跨域异构集群调度等技术难题,推出DeepLink技术方案,以保障跨域智算集群的大模型长稳训练。

  针对远距离跨域混训的数据同步和稳定性难题,该方案采用“3D并行+PS”架构,减轻网络负担,为数据传输提供更宽松的时间窗口。同时,在异地训练中,确保即使某个智算中心的节点发生故障也不影响整体训练。

  针对异构混训效率低下难题,方案提出改进异构流水线并行策略,采用自研分布式并行框架动态调节不同硬件的任务量,解决异构芯片差异性带来的负载均衡和计算阻塞问题。目前,DeepLink开放计算体系已深度集成至联通、电信等智算平台,实现稳定运行。

(文章来源:新华财经)