AI导读:

DeepSeek在“开源周”活动中开源了DeepEP通信库,专为MoE模型训练和推理设计,支持NVLink和RDMA,具备高吞吐量和低延迟内核,显著提升训练和推理效率,降低计算资源消耗,加速AI行业发展。

2月25日,Deepseek在“开源周”活动中开源了DeepEP通信库,这是业内首个专为MoE(专家)模型训练和推理设计的开源EP通信库。DeepSeek强调,DeepEP具备高效的全员沟通能力,支持NVLink和RDMA通信技术,专为训练和推理设计的高吞吐量和低延迟内核,原生FP8调度支持,以及灵活的GPU资源控制,实现计算与通信的完美重叠。

EP,即expert parallelism(专家并行),是提升大规模分布式AI模型训练和推理效率的关键技术。DeepEP特别针对延迟敏感的推理解码任务,引入纯RDMA低延迟内核,最小化延迟,并通过通信与计算重叠的方法,避免占用SM资源,有效提升GPU利用率。

DeepSeek-R1模型基于DeepSeek-V3训练,后者以低训练预算和非大规模使用先进英伟达GPU著称。DeepSeek通过多项创新,如负载均衡、通信优化、内存优化和计算优化,实现了GPU算力的高效利用。清华大学计算机系教授翟季冬指出,DeepSeek-V3通过DualPipe流水线并行算法,精细控制GPU SM分配,实现计算和通信的完全重叠。

中存算半导体董事长陈巍也强调,DeepSeek设计的DualPipe算法和跨节点All-to-All通信内核,有效隐藏了大模型训练过程中的通信开销,优化了显存使用,无需昂贵张量并行即可训练DeepSeek-V3。

DeepSeek表示,开源DeepEP通信库将显著提升MoE模型的训练和推理效率,降低计算资源消耗,有助于降低AI技术开发成本,加速AI行业发展。网友对此反响热烈,认为DeepEP可能是MoE模型训练和推理的颠覆者,NVLink和RDMA的支持也彰显了DeepSeek在AI基础设施方面的突破。

DeepSeek计划本周陆续开源5个代码库,截至目前,已开源FlashMLA和DeepEP两个代码库,剩余三个代码库即将开源。DeepSeek作为探索AGI(通用人工智能)的小公司,致力于通过开源贡献,加速AI行业发展。