AI导读:

DeepSeek发布新一代MoE模型DeepSeek-V3,凭借极低的训练成本和高效的架构设计在行业内掀起波澜,低成本AI训练模式引发关注,同行业大模型厂商需审慎对待。

2024年底,Deepseek(深度求索)凭借新一代MoE模型DeepSeek-V3的发布,再次在行业内掀起波澜。这款拥有6710亿参数,其中激活参数达370亿,经过14.8万亿token预训练的模型,不仅在知识类任务和代码能力上接近业界顶尖水平,更在数学能力上显著领先。

DeepSeek-V3的最大亮点在于其极低的训练成本。据DeepSeek透露,该模型的总训练成本仅为557.6万美元,完整训练消耗了278.8万个GPU小时,仅为同等性能水平模型训练成本的十分之一。这一低成本模式引发了业界的广泛关注,被视为一种可能的“AI拼多多”模式。

DeepSeek的创新不仅体现在训练成本上,更在于其独特的训练技术和架构设计。该模型采用了模型压缩、专家并行训练、FP8混合精度训练等一系列创新技术,以及MoE+MLA的高效架构设计,实现了计算的高效和推理效率的提升。此外,DeepSeek-V3还首次引入了无辅助损失的负载均衡策略,进一步提升了模型性能。

随着DeepSeek-V3的爆火,业界开始思考这种低成本模式是否可复制。特别是在英伟达高端GPU显卡在中国大陆遭禁后,算力不足成为国内AI公司面临的一大难题。而DeepSeek背后的开发公司幻方,凭借上万张英伟达显卡的储备,以及DeepSeek-V3仅用少量卡完成模型训练的成功案例,为行业提供了一种可能的解决方案。

然而,要复制DeepSeek的成功并不容易。除了算力储备和训练技术的挑战外,人才储备也是一大障碍。DeepSeek的核心架构和技术具有相当高的创新门槛,需要顶尖的人才进行开发和调优。此外,DeepSeek的商业触角也备受关注。虽然目前仍以开源模型API接口为主服务开发者和企业,但在招聘平台上释放出的岗位信息暗示着DeepSeek或许已经在筹备自己的C端产品。

随着开源模型框架及算法系统的不断迭代,DeepSeek-V3所达成的效果可以视为顺其自然的事情。但DeepSeek的模型实力和成本优势,以及对于AGI(通用人工智能)目标的追求,使其无论切入哪一个领域都可能对同赛道公司形成压力。因此,同行业的大模型厂商需要审慎对待这家作风低调、输出稳定的公司。

(图片链接省略)