DeepSeek-V3.1发布,UE8M0 FP8助力国产芯片算力提升
AI导读:
DeepSeek-V3.1发布,采用UE8M0 FP8参数精度,针对下一代国产芯片设计,带火A股资本市场。该格式提升芯片解码效率与运算能力,国产AI算力生态有望加速成型。中国人工智能产业进入软硬件紧密合作新时期。
在人工智能训练和推理加速的竞赛中,浮点数(Floating Point)的表示方式正成为关键突破口,特别是在国产芯片领域。随着Deepseek-V3.1的发布,深度求索(DeepSeek)在这方面更进一步:继成功训练出世界首个使用FP8(8位浮点数)精度的开源大模型DeepSeek-V3后,在DeepSeek-V3.1中又使用了UE8M0 FP8 Scale的参数精度,并置顶留言“UE8M0 FP8是针对即将发布的下一代国产芯片设计的”。
UE8M0 FP8是什么?下一代国产芯片又是什么?这个充满谜团的声明带火了UE8M0 FP8,也迅速传导至A股资本市场,国产芯片及半导体上市公司股价应声大涨,其中寒武纪(688256.SH)一路高歌猛进,总市值已跃居科创板头名。主流开源大模型均原生态支持FP8的低精度格式,这代表了低精度量化在未来AI大模型领域中的重要性。
“DeepSeek距离上次的版本发布已经有段时间了,所以这一轮的发布特别受到关注。UE8M0 FP8指的是为中国市场而特别定制的模型格式,此格式对中国的芯片厂商比较友好,基于它们的芯片规格而设置。”行业研究机构Omdia人工智能首席分析师苏廉节告诉记者。事实上,DeepSeek已经成为一个游戏规则的改变者,改变了大模型竞赛“谁拥有算力谁才能胜出”的游戏规则。
对于DeepSeek针对下一代国产芯片引入UE8M0 FP8 Scale参数精度的意义,摩尔线程方面表示,意义在于“能够充分发挥已量产的国产芯片架构特性,通过国产大模型和国产芯片协同设计优化,实现1+1>2”。东莞证券在研报中指出,该格式通过更高的灵活度支持复杂模型推理,提升芯片的解码效率与运算能力,为国产芯片适配更大模型提供技术路径,国产AI算力生态有望加速成型。
实现两倍的浮点算力提升
计算机里的小数是用科学计数法表示,只不过不是10的次方,而是2的次方。浮点数则是计算机用于表示小数的核心手段,由符号位(Sign)、指数(Exponent)和尾数(Mantissa)三部分构成。在AI计算领域,数据精度格式长期被国际巨头所主导。比如眼下被业内推崇的FP8(FP代表浮点数,8代表数据用8bit即8位0、1),是一种较新的数据格式,能显著降低显存占用和计算资源需求,同时保持较高的计算精度。
DeepSeek在开源社区Hugginface放出信息:DeepSeek-V3.1使用UE8M0 FP8缩放数据格式进行训练,以确保与微缩放数据格式兼容。UE8M0是FP8的一种特殊的数字表示格式。U表示没有符号,E8表示8位指数,M0表示没有尾数。有观点认为,DeepSeek-V3.1把原本只在硬件/内核实现层面存在的scale表达方式,提升到模型部署和训练标准,并适配国产下一代芯片,需要说明的是,UE8M0 FP8并非DeepSeek独创,但DeepSeek通过DeepGEMM开源库实现了工程化突破,为整个国产生态在大模型中的落地提供了可能。
“摩尔线程旗舰AI训推产品MTT S5000是国内首批原生支持FP8并已大规模量产的GPU。”摩尔线程方面表示,其MUSA架构原生支持硬件FP8张量加速计算,能完美支持UE8M0 FP8 Scale,利用硬件原生FP8,相对于传统的FP16计算能够实现两倍的浮点算力提升、访存和通信带宽效率提升和存储容量利用率提升,同时最优化张量表达精度。
截至目前,记者了解到,寒武纪、华为昇腾、海光、沐曦、摩尔线程等芯片公司支持FP8。据壁仞研究院研究人员观察,自OpenAI开源首个原生态支持FP4格式的GPT-OSS系列大模型,AI领域实际上已进入低精度计算时代。DeepSeek对UE8M0的调整其实提供了FP8格式的变体,可以进一步降低对计算能力、存储和带宽的需求。有观察人士表示,中国的人工智能产业正在进入一个软硬件紧密合作的新时期。中国芯片公司可以逐步建立自己的FP8生态系统。
“这是国产算力生态协同的积极进展的体现。”清程极智CEO汤雄超表示。汤雄超还指出,目前得益于国产算力芯片、国产开源模型以及国产推理引擎的生态协同,企业大模型落地痛点获得一定程度的改善。今年年初,清程极智推出的赤兔推理引擎率先实现了国产算力运行FP8原生精度Deepseek-V3模型;而本次最新发布的Deepseek-V3.1模型,赤兔推理引擎也在发布当天实现了昇腾、沐曦、海光等国产算力芯片的适配。“本次DeepSeek新模型使用UE8M0数据格式有利于充分发挥下一代国产算力芯片的潜能。我们相信随着中国人工智能行业的不断发展,国产芯片+国产引擎+国产模型的生态协同将不断深化,最终让用户第一时间用上部署在国产算力上的国产大模型。”汤雄超表示。
(文章来源:中国经营网)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

