DeepSeek开源FP8 GEMM库DeepGEMM，加速AI行业发展

财经聚焦 2025-02-26 12:20:04 来源：第一财经作者：网络

AI导读：

DeepSeek在开源周上宣布开放高效的FP8 GEMM库DeepGEMM，该库支持稠密模型和MoE模型的GEMM运算，通过FP8和硬件级优化解决大模型计算效率和资源消耗的痛点，或将成为AI计算生态的“基础设施”，推动行业向更高效、低成本方向发展。

2月26日，Deepseek在开源周（OpenSourceWeek）的第三天，宣布开放高效的FP8 GEMM库DeepGEMM，此举在AI领域引起关注。DeepSeek连续三天的发布都与算法相关，偏向技术层面。

大模型生态社区OpenCSG的创始人陈冉向第一财经举例解释，DeepSeek以前是直接提供一辆续航900公里的车，而现在它正在深入探索如何以最佳方式实现这一续航。DeepSeek的模型能够取得良好效果，背后有一些算法和相应的框架支持，这些“脚手架”的开源对后续生态搭建至关重要。

GEMM（General Matrix Multiplication，通用矩阵乘法）是线性代数中的基本运算，FP8 GEMM则使用8位浮点数进行矩阵乘法，适用于深度学习和高性能计算，能在保持高效计算的同时减少内存占用和带宽需求。

DeepSeek介绍称，DeepGEMM同时支持传统的稠密模型和MoE（混合专家）模型的GEMM运算，为基于英伟达Hopper架构（如H100 GPU）的V3/R1系列硬件提供高效的训练和推理支持。

基于DeepGEMM，在英伟达Hopper架构的GPU上，FP8 TFLOPS（每秒浮点运算次数）性能可达1350+，该代码库设计简洁，核心内核函数仅约300行代码，但在多数矩阵规模上表现优于专家调优的内核。

DeepSeek表示，DeepGEMM通过FP8和硬件级优化，解决了大模型计算效率和资源消耗的痛点，特别是为MoE模型的落地提供了关键支持。其开源行为加速了技术民主化，或将成为AI计算生态的“基础设施”，推动行业向更高效、低成本方向发展。

FP8作为AI计算的新兴标准，其高效性可加速千亿参数模型的训练，降低显存需求。在边缘设备或云端部署时，FP8的低精度计算能显著提升吞吐量，降低成本。因此，DeepGEMM的开源有助于推动FP8生态普及，降低开发者使用门槛，促进更多框架和模型适配FP8。

此外，DeepSeek的开源行动为MoE模型的高效实现提供了参考，可能催生更多MoE应用，如多模态模型和边缘端高效模型。

陈冉对DeepSeek连续三天的代码库开源表示震撼，认为DeepSeek发布的算法相当于“脚手架”，有助于行业基于DeepSeek的技术线继续发展，最终构建完整的生态。

长期来看，陈冉认为DeepSeek的开源行动意义重大，既有模型标准，也有工具标准，为生态发展奠定了基础。

（文章来源：第一财经）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。