DeepSeek开源FP8 GEMM库DeepGEMM,加速AI行业发展
AI导读:
DeepSeek在开源周上宣布开放高效的FP8 GEMM库DeepGEMM,该库支持稠密模型和MoE模型的GEMM运算,通过FP8和硬件级优化解决大模型计算效率和资源消耗的痛点,或将成为AI计算生态的“基础设施”,推动行业向更高效、低成本方向发展。
2月26日,Deepseek在开源周(OpenSourceWeek)的第三天,宣布开放高效的FP8 GEMM库DeepGEMM,此举在AI领域引起关注。DeepSeek连续三天的发布都与算法相关,偏向技术层面。
大模型生态社区OpenCSG的创始人陈冉向第一财经举例解释,DeepSeek以前是直接提供一辆续航900公里的车,而现在它正在深入探索如何以最佳方式实现这一续航。DeepSeek的模型能够取得良好效果,背后有一些算法和相应的框架支持,这些“脚手架”的开源对后续生态搭建至关重要。

GEMM(General Matrix Multiplication,通用矩阵乘法)是线性代数中的基本运算,FP8 GEMM则使用8位浮点数进行矩阵乘法,适用于深度学习和高性能计算,能在保持高效计算的同时减少内存占用和带宽需求。
DeepSeek介绍称,DeepGEMM同时支持传统的稠密模型和MoE(混合专家)模型的GEMM运算,为基于英伟达Hopper架构(如H100 GPU)的V3/R1系列硬件提供高效的训练和推理支持。
基于DeepGEMM,在英伟达Hopper架构的GPU上,FP8 TFLOPS(每秒浮点运算次数)性能可达1350+,该代码库设计简洁,核心内核函数仅约300行代码,但在多数矩阵规模上表现优于专家调优的内核。
DeepSeek表示,DeepGEMM通过FP8和硬件级优化,解决了大模型计算效率和资源消耗的痛点,特别是为MoE模型的落地提供了关键支持。其开源行为加速了技术民主化,或将成为AI计算生态的“基础设施”,推动行业向更高效、低成本方向发展。
FP8作为AI计算的新兴标准,其高效性可加速千亿参数模型的训练,降低显存需求。在边缘设备或云端部署时,FP8的低精度计算能显著提升吞吐量,降低成本。因此,DeepGEMM的开源有助于推动FP8生态普及,降低开发者使用门槛,促进更多框架和模型适配FP8。
此外,DeepSeek的开源行动为MoE模型的高效实现提供了参考,可能催生更多MoE应用,如多模态模型和边缘端高效模型。
陈冉对DeepSeek连续三天的代码库开源表示震撼,认为DeepSeek发布的算法相当于“脚手架”,有助于行业基于DeepSeek的技术线继续发展,最终构建完整的生态。
长期来看,陈冉认为DeepSeek的开源行动意义重大,既有模型标准,也有工具标准,为生态发展奠定了基础。
(文章来源:第一财经)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

