AI导读:

华泰证券研究指出,DeepSeek在V3版本中采用PTX优化硬件算法,NSA运用Triton编程语言编写GPU代码,初步显现与CUDA解耦趋势。国产算力已良好适配DeepSeek-R1等模型,华泰证券认为针对国产算力的优化或将持续推进。

  证券时报网讯,华泰证券研究指出,Deepseek在V3版本中采用比CUDA更底层的PTX来优化硬件算法,PTX作为CUDA编译的中间代码,在CUDA和最终机器码间起到桥梁作用。而NSA则运用了OpenAI提出的Triton编程语言,高效编写GPU代码。Triton底层不仅能调用CUDA,还能调用其他GPU语言,包括AMD的ROCm及国产算力芯片语言,如寒武纪的思元590芯片和海光信息的深算一号(DCU)内置的HYGON ISA指令集。尽管LLM的训练短期内未完全脱离CUDA生态,但DeepSeek NSA的推出已初步显现与CUDA解耦的趋势,为后续适配更多类型算力芯片打下坚实基础。国产算力以异腾为代表,已良好适配DeepSeek-R1等国产模型,展现出高效推理效果。华泰证券认为,随着海外算力受限,针对国产算力的优化或将持续推进,值得业界高度关注。

(文章来源:证券时报网)