DeepSeek开源FlashMLA,助力Hopper GPU高效解码
DeepSeek宣布开源针对Hopper GPU优化的FlashMLA解码内核,专为处理可变长度序列设计,可在H800上实现3000GB/s内存带宽及580TFLOPS计算性能,已投入生产使用。...
DeepSeek启动“开源周”,Flash MLA解码内核为Hopper GPU优化
DeepSeek启动“开源周”,首个开源代码库Flash MLA专为Hopper GPU设计,实现高效MLA解码并优化可变长度序列,已正式投入生产,标志着AI技术在GPU应用上的重大突破。...


