DeepSeek开源FP8 GEMM库DeepGEMM,加速AI行业发展
DeepSeek在开源周上宣布开放高效的FP8 GEMM库DeepGEMM,该库支持稠密模型和MoE模型的GEMM运算,通过FP8和硬件级优化解决大模型计算效率和资源消耗的痛点,或将成为AI计算生态的“基础设施”,推动行业向更高效、低成本方向发展。...
DeepSeek开源FlashMLA,助力Hopper GPU高效解码
DeepSeek宣布开源针对Hopper GPU优化的FlashMLA解码内核,专为处理可变长度序列设计,可在H800上实现3000GB/s内存带宽及580TFLOPS计算性能,已投入生产使用。...


