AI导读:

DeepSeek首次披露其V3/R1推理系统的理论成本利润率高达545%,同时介绍了大规模跨节点专家并行技术和负载均衡策略。然而,潞晨科技突然宣布将在一周后停止提供DeepSeek API服务。

一起关注一下关于Deepseek的最新消息!

DeepSeek首次披露:理论成本利润率高达545%

当市场以为DeepSeek的开源周内容发布完毕后,3月1日,DeepSeek突然宣布了“One More Thing”,揭秘V3/R1推理系统,并公开了大规模部署的成本和收益数据。

根据《DeepSeek-V3/R1推理系统概览》一文,假定GPU租赁成本为2美元/小时,总成本为87072美元/天;若所有tokens均按DeepSeek R1的定价计算,理论上一天的总收入可达562027美元,成本利润率高达545%。

DeepSeek-V3/R1推理系统旨在实现更大吞吐和更低延迟。

为实现这两个目标,DeepSeek采用了大规模跨节点专家并行(Expert Parallelism / EP)技术。EP技术不仅大幅提高了batch size和GPU矩阵乘法的效率,还通过分散专家至不同GPU上降低了延迟。

然而,EP也增加了系统的复杂性,主要体现在跨节点传输和多个节点间的负载均衡上。

DeepSeek详细介绍了如何利用EP增大batch size、隐藏传输耗时以及进行负载均衡。

大规模跨节点专家并行(Expert Parallelism / EP)

由于DeepSeek-V3/R1拥有众多专家,且每层256个专家中仅激活8个,模型的高度稀疏性要求采用大规模的overall batch size,以实现高吞吐和低延迟。因此,需要采用大规模跨节点专家并行技术。

采用多机多卡间的专家并行策略,旨在实现:

Prefill:包含路由专家EP32、MLA和共享专家DP32,一个部署单元为4节点,32个冗余路由专家,每张卡配备9个路由专家和1个共享专家。

Decode:包含路由专家EP144、MLA和共享专家DP144,一个部署单元为18节点,32个冗余路由专家,每张卡配备2个路由专家和1个共享专家。

计算通信重叠

多机多卡的专家并行会带来较大的通信开销,因此采用双batch重叠策略来掩盖通信开销,提高整体吞吐。

对于prefill阶段,两个batch的计算和通信交错进行,一个batch计算时掩盖另一个batch的通信开销。

对于decode阶段,由于不同阶段执行时间不同,因此将attention部分拆成两个stage,形成5个stage的流水线,实现计算和通信的重叠。

负载均衡至关重要

由于采用了大规模并行(包括数据并行和专家并行),若某个GPU的计算或通信负载过重,将成为性能瓶颈,拖慢整个系统,同时降低整体利用率。因此,需为每个GPU分配均衡的计算和通信负载。

DeepSeek提出了PrefillLoadBalancer、DecodeLoadBalancer和Expert-ParallelLoadBalancer等多种负载均衡策略,以确保各GPU的计算量和输入token数量均衡。

线上系统实际统计数据

DeepSeekV3和R1服务均采用H800GPU,与训练一致的精度,最大程度保证服务效果。在最近的24小时统计时段内,DeepSeek-V3和R1推理服务峰值占用278个节点,平均占用226.75个节点(每个节点含8个H800GPU),假定GPU租赁成本为2美元/小时,总成本为87072美元/天。

在24小时统计时段内,DeepSeek-V3和R1输入token总数为608B,其中56.3%命中KVCache硬盘缓存。平均输出速率为20~22tps,平均每输出一个token的KVCache长度是4989。平均每台H800的吞吐量为:prefill任务输入吞吐约73.7ktokens/s(含缓存命中);decode任务输出吞吐约14.8ktokens/s。

以上统计包括网页、APP和API的所有负载。若所有tokens均按DeepSeek-R1的定价计算,理论上一天的总收入为562027美元,成本利润率为545%。然而,实际收入会少于理论值,因为V3定价更低,且收费服务仅占一部分,夜间还有折扣。

有网友将DeepSeek与OpenAI对比,戏称:“‘成本利润率545%’,所以我被OpenAI抢劫了?”

潞晨科技暂停DeepSeek API服务

在DeepSeek披露大规模部署成本和收益后,潞晨科技突然宣布将在一周后停止提供DeepSeek API服务,请用户尽快使用余额,未用完部分将全额退款。

此前,华为计算微信公众号发文表示,DeepSeek-R1系列模型因其出色性能和低廉开发成本,引发全球关注。潞晨科技携手昇腾,联合发布基于昇腾算力的DeepSeek-R1系列推理API及云镜像服务。

但近期潞晨科技CEO尤洋指出,满血版DeepSeek-R1每百万token(输出)定价16元,若每日输出1000亿token,接入方企业每月可获得4800万元收入。然而,完成1000亿token输出需约4000台搭载H800的机器,每月机器成本高达4.5亿元,因此企业可能面临每月4亿元的亏损。

3月1日下午4点,潞晨科技CEO尤洋发文回应DeepSeek公布的理论成本利润率。

潞晨科技是一家致力于“解放AI生产力”的全球性企业,团队核心成员来自国内外知名高校。主营业务包括分布式软件系统、大规模人工智能平台以及企业级云计算解决方案。公司旨在打造开源低成本AI大模型开发系统Colossal-AI,帮助企业最大化人工智能训练效率,同时最小化训练成本。

(文章来源:中国基金报)