AI导读:

DeepSeek推出R1模型,在数学、代码、自然语言推理等任务上性能比肩OpenAI,展现出强大的推理能力,标志着我国AI产业从“技术跟跑”到“技术并跑”的跨越式发展。

新华财经北京2月13日电(分析师刁倩)2025年春节前夕,Deepseek作为中国本土科创企业的代表,推出开源通用人工智能模型DeepSeek-V3和R1系列。该模型一经推出,其创新技术路线所带来的低成本、高性能引全球关注。本次DeepSeek在模型层面的突破,折射出我国AI产业从“技术跟跑”到“技术并跑”的跨越式发展,正深刻改变中国人工智能产业的发展格局。

一、DeepSeek春节推出R1模型,技术优化与低成本优势引全球瞩目

国产开源大模型DeepSeek于春节前夕推出R1模型。2025年1月20日,幻方量化旗下AI公司深度求索(DeepSeek)正式发布DeepSeek-R1模型。在数学、代码、自然语言推理等任务上,该模型性能比肩OpenAI o1正式版。DeepSeek表示,R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。有分析指出,DeepSeek在推理能力上与OpenAI的GPT-4相媲美,在解决数学难题、分析复杂的法律条文等方面展现出强大的实力。据北京日报,2月8日QuestMobile数据显示,DeepSeek在1月28日的日活跃用户数首次超越豆包,随后在2月1日突破3000万大关,成为史上最快达成这一里程碑的应用。

传统观点认为,AI性能提升依赖参数和算力的增加,而DeepSeek通过算法优化证明,高效架构与训练策略同样能实现高性能,其技术优化引全球瞩目。浙江财经大学人工智能研究院院长张文宇指出,DeepSeek的破局之道在于“四两拨千斤”,其研发团队通过把数据进行总结和分类,经过选择性投喂与处理之后,输送给大模型,提高了训练效率。

IBM院士(IBM Fellow) Kush Varshney对此表示,“真正令人印象深刻的是DeepSeek模型的推理能力。推理模型本质上是自我验证或检查,代表了一种‘元认知’或‘关于思考的思考’。 我们正开始将智慧融入到这些模型中,这是巨大的进步。”

在算力方面,张文宇表示,面对美国芯片禁令,其研发团队对低配版GPU集群(甚至多源异构算力)进行智能管理,对CPU、GPU甚至边缘计算设备进行协同调度,打破了“大力才能出奇迹”的算力魔咒。

算力的优化也带来了DeepSeek的低成本优势。据DeepSeek技术报告,DeepSeek-V3的训练成本仅为557.6万美元,训练使用的是算力受限的英伟达H800 GPU集群(使用2048块H800 GPU)。该成本远低于OpenAI的GPT-4(1-2亿美元)和谷歌的Gemini(2亿美元)。同时,DeepSeek不仅将R1训练技术全部公开,还蒸馏了6个小模型开源给社区,允许用户借此训练其他模型。API价格方面,每百万输入tokens 1元(缓存命中)/4元(缓存未命中),每百万输出tokens 16元,较o1正式版低27-55倍。这种成本控制能力不仅为中国企业提供了战略优势,还可能迫使国际巨头调整技术路径和定价策略。

二、我国人工智能产业快速发展,DeepSeek在核心技术层崭露头角

近年来,我国加大对人工智能产业的顶层设计以及政策支持。本次DeepSeek在模型层面的突破,是我国本土科创企业在人工智能产业核心领域的崭露头角。

三、上下游产业链加速适配,DeepSeek推动我国AI产业跨越式发展

DeepSeek让AI迎来了“破圈”时刻,上下游产业链企业迅速行动起来。首先是云厂商,自2月1日起,华为云、阿里云、百度智能云、字节火山引擎、腾讯云等国内主要云厂商纷纷宣布上线DeepSeek模型,面向开发者和企业客户提供模型部署服务,降低了企业AI应用门槛。紧随其后的是各大国产芯片厂商。由于DeepSeek打破了对高算力的约束限制,国产芯片的利用率将会得到极大的提升,对于芯片产业都是重大利好。

随着中上游的积极部署,下游的AI应用层也开始行动起来。智能硬件、汽车、金融等各行各业都在积极接入DeepSeek模型,希望借助其能力来升级自身服务。

张文宇指出,DeepSeek的成果标志着我国AI大模型首次与国际顶尖水平并驾齐驱,更折射出我国AI产业从“技术跟跑”到“技术并跑”的跨越式发展。但他也指出,虽然我国在AI应用层处于国际领跑,在AI技术层处于国际并跑,但在AI基础层仍处于国际跟跑。

张文宇表示,DeepSeek的创新是包含了一种从架构设计到工程优化的全流程、系统级技术突破与创新。DeepSeek的启示在于:中国AI的崛起,本质上是一场大规模系统级工程创新的胜利。但真正的“领跑”,仍需攻克基础层的“卡脖子”难题。

(文章来源:新华财经)