AI导读:

DeepSeek宣布开源优化并行策略,旨在提高计算效率。同时,英伟达在Blackwell架构上优化的DeepSeek-R1实现重大突破,推理速度提升25倍,成本降低20倍。DeepSeek持续开源活动,推动AI模型高效计算和部署。

Deepseek又有大动作!在开源周的第三天,DeepSeek宣布开源Optimized Parallelism Strategies(优化并行策略),旨在提高计算效率、减少资源浪费,最大化系统性能。该策略通过合理分配任务、协调资源利用和减少通信开销,实现在多核、分布式或异构系统中的高效并行执行。

同时,英伟达在Blackwell架构上优化的DeepSeek-R1实现重大突破,推理速度提升25倍,每token成本降低20倍。这一成果标志着英伟达在人工智能领域的又一里程碑。

DeepSeek开源活动持续进行,第四天再度开源优化并行策略,包括DualPipe、专家并行负载均衡器(EPLB)等,这些策略灵活应用于不同任务类型、数据规模和硬件环境,平衡计算、通信和存储开销,实现高效可扩展的并行计算。

此外,DeepSeek此前开放的DeepEP模型也在微软等平台获得热烈反响,20分钟内收获超千个Star收藏。DeepEP针对非对称带宽转发场景深度优化,支持低精度计算,实现高吞吐量性能。

为鼓励用户充分利用夜间时段,DeepSeek宣布在每日00:30至08:30的夜间空闲时段,大幅下调API调用价格,其中DeepSeek-V3降至原价50%,DeepSeek-R1更是低至25%,降幅最高达75%。

英伟达亦借此机会推出DeepSeek-R1-FP4模型,推理吞吐量高达21,088 token每秒,与H100相比提升25倍,每token成本降低20倍。通过TensorRT DeepSeek优化,FP4精度模型在MMLU测试中达FP8性能的99.8%,已在Hugging Face上开源。

此次优化引发网友惊叹,认为FP4技术将推动AI未来发展。DeepSeek持续开源活动,包括FlashMLA、DeepEP和DeepGEMM等,均旨在通过优化辉达GPU和集群,推动AI模型高效计算和部署。

(文章来源:券商中国)