AI导读:

DeepSeek发布新一代MoE模型DeepSeek-V3,凭借卓越性能和低成本模式引发行业轰动。行业开始思考低成本模式是否可复制,DeepSeek的“AI拼多多”模式为行业提供了一种新的思路。同时,DeepSeek的商业触角也将进一步延伸,备受关注。

2024年底,Deepseek(深度求索)凭借新一代MoE模型DeepSeek-V3的发布,再次在行业内引发轰动。这款拥有6710亿参数、370亿激活参数的模型,在14.8万亿token上进行了预训练,展现了卓越的性能。

DeepSeek-V3在知识类任务与代码能力上接近或超越当前顶尖模型,如Claude-3.5-Sonnet-1022,并在数学能力上显著领先其他模型。更令人瞩目的是,其总训练成本仅为557.6万美元,仅为同等性能水平模型训练成本的十分之一,这一低成本模式让DeepSeek在海内外备受关注。

DeepSeek此前已凭借“MoE架构+MLA技术”在降低大模型使用成本上取得显著成效,此次V3的发布更是巩固了这一优势。同行业的大模型厂商需更加审慎地对待这家作风低调但输出稳定的公司。

关于DeepSeek-V3的低成本模式,行业开始思考其是否可复制。特别是在英伟达高端GPU显卡在中国大陆遭禁后,算力不足成为国内AI公司面临的一大难题。DeepSeek背后的开发公司幻方拥有1万张英伟达显卡,而V3模型仅用2048张H800 GPU就完成了训练,这引发了业界的广泛关注。

Meta AI科学家田渊栋和特斯拉前AI研究学者Andrej Karpathy等知名人士对DeepSeek-V3的低成本训练方法表示赞赏,认为这为资源有限的情况下开发出性能强大的大语言模型提供了可能。降低AI模型开发成本已成为行业趋势,DeepSeek的“AI拼多多”模式为行业提供了一种新的思路。

DeepSeek-V3采用了模型压缩、专家并行训练、FP8混合精度训练等一系列创新技术降低成本。其中,FP8作为一种新兴的低精度训练方法,通过减少数据表示所需的位数,显著降低了内存占用和计算需求。然而,这些技术的复制并不容易,需要强大的算力基建和人才储备。

DeepSeek在人才储备上也独具特点,其核心架构用到的技术具有相当高的创新门槛,需要人才积累。创始人梁文峰表示,DeepSeek的团队由一批本土的顶尖高校毕业生和年轻人才组成,他们因DeepSeek的创新精神而聚集。

在技术层面,DeepSeek-V3的核心亮点是高效的架构设计,即MoE+MLA。此外,V3还首次引入了无辅助损失的负载均衡策略,提高了推理效率。这些技术策略的实现需要强大的模型训练能力。

尽管DeepSeek-V3备受瞩目,但也有观点提出应冷静看待,不要过度神话。相比而言,更值得思考的是DeepSeek的商业触角将向哪个领域进一步延伸。目前,DeepSeek仍以开源模型API接口为主服务开发者和企业,但已有迹象表明其可能在筹备C端产品。

DeepSeek-V3作为开源模型,在数学和代码两项能力上非常突出,补齐产品端能力后,或将在相关领域迅速形成独特优势。同时,公司对AGI目标的追求明确,团队将不断拉升基座模型性能。尽管还看不清DeepSeek的最终抉择,但其模型实力和成本优势已对同赛道公司形成压力。

(图片来源:界面新闻相关报道)