DeepSeek技术进展:初步呈现CUDA解耦趋势,国产算力适配加速
AI导读:
华泰证券研究指出,DeepSeek在V3版本中采用PTX优化硬件算法,NSA运用Triton编程语言编写GPU代码,初步显现与CUDA解耦趋势。国产算力已良好适配DeepSeek-R1等模型,华泰证券认为针对国产算力的优化或将持续推进。
证券时报网讯,华泰证券研究指出,Deepseek在V3版本中采用比CUDA更底层的PTX来优化硬件算法,PTX作为CUDA编译的中间代码,在CUDA和最终机器码间起到桥梁作用。而NSA则运用了OpenAI提出的Triton编程语言,高效编写GPU代码。Triton底层不仅能调用CUDA,还能调用其他GPU语言,包括AMD的ROCm及国产算力芯片语言,如寒武纪的思元590芯片和海光信息的深算一号(DCU)内置的HYGON ISA指令集。尽管LLM的训练短期内未完全脱离CUDA生态,但DeepSeek NSA的推出已初步显现与CUDA解耦的趋势,为后续适配更多类型算力芯片打下坚实基础。国产算力以异腾为代表,已良好适配DeepSeek-R1等国产模型,展现出高效推理效果。华泰证券认为,随着海外算力受限,针对国产算力的优化或将持续推进,值得业界高度关注。
(文章来源:证券时报网)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

