DeepSeek开源三项并行策略,加速AI模型训练
AI导读:
DeepSeek在开源周宣布三项优化并行策略,包括DualPipe双向流水线并行算法、EPLB负载均衡器,分享性能分析数据。同时宣布API错峰优惠,加快推出R2模型,或成AI行业关键节点。
2月27日,Deepseek开源周(OpenSourceWeek)迎来第四弹,宣布开源三项优化并行策略,并在Github上详细展开了DeepSeek-V3和R1模型背后的并行计算优化技术。通过这些技术,我们可以深入了解团队如何精细优化计算和通信,最大限度利用GPU能力。
这三项策略包括DualPipe,一种用于V3/R1模型训练中计算与通信重叠的双向流水线并行算法,能够完全重叠前向和后向计算通信阶段,相比传统方法减少了“流水线气泡”。DualPipe开发团队包括创始人梁文锋。
第二项优化策略是EPLB(Expert Parallelism Load Balancer),针对V3/R1模型,解决MoE模型在分布式训练和推理中的负载不平衡问题。DeepSeek采用冗余专家策略,将重复专家打包到GPU上,确保负载平衡。
第三部分,DeepSeek分享了来自训练和推理框架的性能分析数据,帮助社区了解通信计算重叠策略和低级实现细节。数据采用PyTorch Profiler采集,可在Chrome或Edge浏览器中可视化分析。
DeepSeek这四天的发布都聚焦于Infra层算法,分享最大限度利用GPU的技术细节。OpenCSG创始人陈冉表示,DeepSeek的开源相当于深挖如何让车开到900公里的“脚手架”,有利于生态搭建。
陈冉认为,DeepSeek的代码开源可能影响AI Infra层从业者,既是挑战也是机遇。此前,DeepSeek已开源MLA解码核FlashMLA、DeepEP通信库和DeepGEMM代码库,均受到社区欢迎。
截至发稿,FlashMLA获超1万星标,DeepEP获6000星标,DeepGEMM超3700星标,最新发布的DualPipe获超700星标。
DeepSeek还宣布API错峰优惠,夜间空闲时段API调用价格大幅下调,鼓励用户利用优惠时段享受更经济流畅的服务。此外,有消息称DeepSeek将加快推出R2模型,目前尚未回应。
DeepSeek在R1论文中提到,R1性能将在下一个版本改善,随着强化学习数据增加,模型解决复杂推理任务能力将持续提升。业界认为,DeepSeek-R2的发布或成AI行业关键节点。
(文章来源:第一财经)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

