AI导读:

DeepSeek在开源周上宣布开放高效的FP8 GEMM库DeepGEMM,该库支持稠密模型和MoE模型的GEMM运算,通过FP8和硬件级优化解决大模型计算效率和资源消耗的痛点,或将成为AI计算生态的“基础设施”,推动行业向更高效、低成本方向发展。

2月26日,Deepseek在开源周(OpenSourceWeek)的第三天,宣布开放高效的FP8 GEMM库DeepGEMM,此举在AI领域引起关注。DeepSeek连续三天的发布都与算法相关,偏向技术层面。

大模型生态社区OpenCSG的创始人陈冉向第一财经举例解释,DeepSeek以前是直接提供一辆续航900公里的车,而现在它正在深入探索如何以最佳方式实现这一续航。DeepSeek的模型能够取得良好效果,背后有一些算法和相应的框架支持,这些“脚手架”的开源对后续生态搭建至关重要。

GEMM(General Matrix Multiplication,通用矩阵乘法)是线性代数中的基本运算,FP8 GEMM则使用8位浮点数进行矩阵乘法,适用于深度学习和高性能计算,能在保持高效计算的同时减少内存占用和带宽需求。

DeepSeek介绍称,DeepGEMM同时支持传统的稠密模型和MoE(混合专家)模型的GEMM运算,为基于英伟达Hopper架构(如H100 GPU)的V3/R1系列硬件提供高效的训练和推理支持。

基于DeepGEMM,在英伟达Hopper架构的GPU上,FP8 TFLOPS(每秒浮点运算次数)性能可达1350+,该代码库设计简洁,核心内核函数仅约300行代码,但在多数矩阵规模上表现优于专家调优的内核。

DeepSeek表示,DeepGEMM通过FP8和硬件级优化,解决了大模型计算效率和资源消耗的痛点,特别是为MoE模型的落地提供了关键支持。其开源行为加速了技术民主化,或将成为AI计算生态的“基础设施”,推动行业向更高效、低成本方向发展。

FP8作为AI计算的新兴标准,其高效性可加速千亿参数模型的训练,降低显存需求。在边缘设备或云端部署时,FP8的低精度计算能显著提升吞吐量,降低成本。因此,DeepGEMM的开源有助于推动FP8生态普及,降低开发者使用门槛,促进更多框架和模型适配FP8。

此外,DeepSeek的开源行动为MoE模型的高效实现提供了参考,可能催生更多MoE应用,如多模态模型和边缘端高效模型。

陈冉对DeepSeek连续三天的代码库开源表示震撼,认为DeepSeek发布的算法相当于“脚手架”,有助于行业基于DeepSeek的技术线继续发展,最终构建完整的生态。

长期来看,陈冉认为DeepSeek的开源行动意义重大,既有模型标准,也有工具标准,为生态发展奠定了基础。

(文章来源:第一财经)