DeepSeek宣布开源优化并行策略,英伟达DeepSeek-R1实现重大突破
AI导读:
DeepSeek宣布开源优化并行策略,旨在提高计算效率。同时,英伟达在Blackwell架构上优化的DeepSeek-R1实现重大突破,推理速度提升25倍,成本降低20倍。DeepSeek持续开源活动,推动AI模型高效计算和部署。
Deepseek又有大动作!在开源周的第三天,DeepSeek宣布开源Optimized Parallelism Strategies(优化并行策略),旨在提高计算效率、减少资源浪费,最大化系统性能。该策略通过合理分配任务、协调资源利用和减少通信开销,实现在多核、分布式或异构系统中的高效并行执行。
同时,英伟达在Blackwell架构上优化的DeepSeek-R1实现重大突破,推理速度提升25倍,每token成本降低20倍。这一成果标志着英伟达在人工智能领域的又一里程碑。
DeepSeek开源活动持续进行,第四天再度开源优化并行策略,包括DualPipe、专家并行负载均衡器(EPLB)等,这些策略灵活应用于不同任务类型、数据规模和硬件环境,平衡计算、通信和存储开销,实现高效可扩展的并行计算。
此外,DeepSeek此前开放的DeepEP模型也在微软等平台获得热烈反响,20分钟内收获超千个Star收藏。DeepEP针对非对称带宽转发场景深度优化,支持低精度计算,实现高吞吐量性能。
为鼓励用户充分利用夜间时段,DeepSeek宣布在每日00:30至08:30的夜间空闲时段,大幅下调API调用价格,其中DeepSeek-V3降至原价50%,DeepSeek-R1更是低至25%,降幅最高达75%。
英伟达亦借此机会推出DeepSeek-R1-FP4模型,推理吞吐量高达21,088 token每秒,与H100相比提升25倍,每token成本降低20倍。通过TensorRT DeepSeek优化,FP4精度模型在MMLU测试中达FP8性能的99.8%,已在Hugging Face上开源。
此次优化引发网友惊叹,认为FP4技术将推动AI未来发展。DeepSeek持续开源活动,包括FlashMLA、DeepEP和DeepGEMM等,均旨在通过优化辉达GPU和集群,推动AI模型高效计算和部署。
(文章来源:券商中国)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

