AI导读:

DeepSeek在开源周宣布三项优化并行策略,包括DualPipe双向流水线并行算法、EPLB负载均衡器,分享性能分析数据。同时宣布API错峰优惠,加快推出R2模型,或成AI行业关键节点。

2月27日,Deepseek开源周(OpenSourceWeek)迎来第四弹,宣布开源三项优化并行策略,并在Github上详细展开了DeepSeek-V3和R1模型背后的并行计算优化技术。通过这些技术,我们可以深入了解团队如何精细优化计算和通信,最大限度利用GPU能力。

这三项策略包括DualPipe,一种用于V3/R1模型训练中计算与通信重叠的双向流水线并行算法,能够完全重叠前向和后向计算通信阶段,相比传统方法减少了“流水线气泡”。DualPipe开发团队包括创始人梁文锋。

第二项优化策略是EPLB(Expert Parallelism Load Balancer),针对V3/R1模型,解决MoE模型在分布式训练和推理中的负载不平衡问题。DeepSeek采用冗余专家策略,将重复专家打包到GPU上,确保负载平衡。

第三部分,DeepSeek分享了来自训练和推理框架的性能分析数据,帮助社区了解通信计算重叠策略和低级实现细节。数据采用PyTorch Profiler采集,可在Chrome或Edge浏览器中可视化分析。

DeepSeek这四天的发布都聚焦于Infra层算法,分享最大限度利用GPU的技术细节。OpenCSG创始人陈冉表示,DeepSeek的开源相当于深挖如何让车开到900公里的“脚手架”,有利于生态搭建。

陈冉认为,DeepSeek的代码开源可能影响AI Infra层从业者,既是挑战也是机遇。此前,DeepSeek已开源MLA解码核FlashMLA、DeepEP通信库和DeepGEMM代码库,均受到社区欢迎。

截至发稿,FlashMLA获超1万星标,DeepEP获6000星标,DeepGEMM超3700星标,最新发布的DualPipe获超700星标。

DeepSeek还宣布API错峰优惠,夜间空闲时段API调用价格大幅下调,鼓励用户利用优惠时段享受更经济流畅的服务。此外,有消息称DeepSeek将加快推出R2模型,目前尚未回应。

DeepSeek在R1论文中提到,R1性能将在下一个版本改善,随着强化学习数据增加,模型解决复杂推理任务能力将持续提升。业界认为,DeepSeek-R2的发布或成AI行业关键节点。

(文章来源:第一财经