DeepSeek宣布开源优化并行策略，英伟达DeepSeek-R1实现重大突破

财经聚焦 2025-02-27 11:40:34 来源：券商中国作者：网络

AI导读：

DeepSeek宣布开源优化并行策略，旨在提高计算效率。同时，英伟达在Blackwell架构上优化的DeepSeek-R1实现重大突破，推理速度提升25倍，成本降低20倍。DeepSeek持续开源活动，推动AI模型高效计算和部署。

Deepseek又有大动作！在开源周的第三天，DeepSeek宣布开源Optimized Parallelism Strategies（优化并行策略），旨在提高计算效率、减少资源浪费，最大化系统性能。该策略通过合理分配任务、协调资源利用和减少通信开销，实现在多核、分布式或异构系统中的高效并行执行。

同时，英伟达在Blackwell架构上优化的DeepSeek-R1实现重大突破，推理速度提升25倍，每token成本降低20倍。这一成果标志着英伟达在人工智能领域的又一里程碑。

DeepSeek开源活动持续进行，第四天再度开源优化并行策略，包括DualPipe、专家并行负载均衡器（EPLB）等，这些策略灵活应用于不同任务类型、数据规模和硬件环境，平衡计算、通信和存储开销，实现高效可扩展的并行计算。

此外，DeepSeek此前开放的DeepEP模型也在微软等平台获得热烈反响，20分钟内收获超千个Star收藏。DeepEP针对非对称带宽转发场景深度优化，支持低精度计算，实现高吞吐量性能。

为鼓励用户充分利用夜间时段，DeepSeek宣布在每日00:30至08:30的夜间空闲时段，大幅下调API调用价格，其中DeepSeek-V3降至原价50%，DeepSeek-R1更是低至25%，降幅最高达75%。

英伟达亦借此机会推出DeepSeek-R1-FP4模型，推理吞吐量高达21,088 token每秒，与H100相比提升25倍，每token成本降低20倍。通过TensorRT DeepSeek优化，FP4精度模型在MMLU测试中达FP8性能的99.8%，已在Hugging Face上开源。

此次优化引发网友惊叹，认为FP4技术将推动AI未来发展。DeepSeek持续开源活动，包括FlashMLA、DeepEP和DeepGEMM等，均旨在通过优化辉达GPU和集群，推动AI模型高效计算和部署。

（文章来源：券商中国）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。