上海AI实验室发布DeepLink技术 助力跨域混训大模型
AI导读:
上海人工智能实验室发布DeepLink超大规模跨域混训技术方案,支持千公里多智算中心跨域长稳混训千亿参数大模型,解决远距离跨域混训的数据同步和稳定性难题,以及异构混训效率低下问题。
新华财经上海7月21日电 近日,上海人工智能实验室发布DeepLink超大规模跨域混训技术方案,该方案支持千公里多智算中心跨域长稳混训千亿参数大模型。例如,能够跨越1500公里连接上海和济南之间的智算中心,实现北京、上海与贵州等多地智算中心互联和大模型混训等。
上海人工智能实验室介绍,随着人工智能研究及产业应用深化,算力需求持续增长,但国内智算中心存在建设分散、采购芯片代次差异大、算力资源碎片化等情况,难以灵活、低成本获取大算力。为此,实验室攻克了大规模跨域异构集群调度等技术难题,推出DeepLink技术方案,以保障跨域智算集群的大模型长稳训练。
针对远距离跨域混训的数据同步和稳定性难题,该方案采用“3D并行+PS”架构,减轻网络负担,为数据传输提供更宽松的时间窗口。同时,在异地训练中,确保即使某个智算中心的节点发生故障也不影响整体训练。
针对异构混训效率低下难题,方案提出改进异构流水线并行策略,采用自研分布式并行框架动态调节不同硬件的任务量,解决异构芯片差异性带来的负载均衡和计算阻塞问题。目前,DeepLink开放计算体系已深度集成至联通、电信等智算平台,实现稳定运行。
(文章来源:新华财经)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

