DeepSeek披露V3/R1推理系统成本利润率高达545%
AI导读:
DeepSeek首次披露V3/R1推理系统成本利润率高达545%,采用大规模跨节点专家并行技术提升吞吐和降低延迟。然而,潞晨科技突然宣布将在一周后停止提供DeepSeek API服务,引发关注。
一起关注一下关于Deepseek的最新消息!DeepSeek首次披露了其V3/R1推理系统的理论成本利润率,高达545%。
当市场以为DeepSeek的开源周内容发布完毕后,3月1日,DeepSeek突然宣布了“One More Thing”,揭秘了其V3/R1推理系统,并公开了大规模部署的成本和收益。据《DeepSeek-V3/R1推理系统概览》显示,在假定GPU租赁成本为2美元/小时的情况下,总成本为87072美元/天,而如果所有tokens均按照DeepSeek R1的定价计算,理论上一天的总收入可达562027美元,成本利润率惊人地达到了545%。

DeepSeek-V3/R1推理系统的优化目标是实现更大的吞吐和更低的延迟。为实现这一目标,DeepSeek采用了大规模跨节点专家并行(Expert Parallelism / EP)技术。EP技术不仅大幅提高了batch size,从而提升了GPU矩阵乘法的效率,还通过将专家分散在不同的GPU上,降低了延迟。然而,EP技术也增加了系统的复杂性,主要体现在跨节点传输和负载均衡方面。
DeepSeek详细介绍了如何使用EP技术增大batch size、隐藏传输耗时以及进行负载均衡。其中,大规模跨节点专家并行是关键技术之一,由于DeepSeek-V3/R1的专家数量众多,且每层仅激活部分专家,因此必须采用大规模并行才能实现高效推理。

为了实现计算和通信的重叠,DeepSeek采用了双batch重叠策略,以掩盖通信开销并提高整体吞吐。此外,DeepSeek还介绍了多种负载均衡策略,以确保每个GPU的计算和通信负载均衡。

DeepSeekV3和R1推理服务在实际应用中取得了显著成效。服务使用了H800GPU,并采用了与训练一致的精度格式,最大程度保证了服务效果。在最近的24小时统计时段内,DeepSeek-V3和R1推理服务占用的节点总和峰值达到了278个,平均占用226.75个节点,假定GPU租赁成本为2美元/小时,总成本为87072美元/天。

然而,就在DeepSeek披露大规模部署成本和收益之后,潞晨科技突然宣布将在一周后停止提供DeepSeek API服务。此前,潞晨科技与华为昇腾联合发布了基于昇腾算力的DeepSeek-R1系列推理API及云镜像服务。但近期潞晨科技CEO尤洋指出,虽然DeepSeek-R1的定价低廉,但企业方可能面临巨额亏损,因为服务成本远高于收入。

潞晨科技是一家致力于“解放AI生产力”的全球性企业,专注于分布式软件系统、大规模人工智能平台以及企业级云计算解决方案。此次暂停DeepSeek API服务,或许意味着潞晨科技在AI大模型开发领域面临新的挑战和机遇。
(文章来源:中国基金报)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

