DeepSeek-V3爆火,低成本AI训练模式引关注
AI导读:
DeepSeek发布新一代MoE模型DeepSeek-V3,凭借极低的训练成本和高效的架构设计在行业内掀起波澜,低成本AI训练模式引发关注,同行业大模型厂商需审慎对待。
2024年底,Deepseek(深度求索)凭借新一代MoE模型DeepSeek-V3的发布,再次在行业内掀起波澜。这款拥有6710亿参数,其中激活参数达370亿,经过14.8万亿token预训练的模型,不仅在知识类任务和代码能力上接近业界顶尖水平,更在数学能力上显著领先。
DeepSeek-V3的最大亮点在于其极低的训练成本。据DeepSeek透露,该模型的总训练成本仅为557.6万美元,完整训练消耗了278.8万个GPU小时,仅为同等性能水平模型训练成本的十分之一。这一低成本模式引发了业界的广泛关注,被视为一种可能的“AI拼多多”模式。
DeepSeek的创新不仅体现在训练成本上,更在于其独特的训练技术和架构设计。该模型采用了模型压缩、专家并行训练、FP8混合精度训练等一系列创新技术,以及MoE+MLA的高效架构设计,实现了计算的高效和推理效率的提升。此外,DeepSeek-V3还首次引入了无辅助损失的负载均衡策略,进一步提升了模型性能。
随着DeepSeek-V3的爆火,业界开始思考这种低成本模式是否可复制。特别是在英伟达高端GPU显卡在中国大陆遭禁后,算力不足成为国内AI公司面临的一大难题。而DeepSeek背后的开发公司幻方,凭借上万张英伟达显卡的储备,以及DeepSeek-V3仅用少量卡完成模型训练的成功案例,为行业提供了一种可能的解决方案。
然而,要复制DeepSeek的成功并不容易。除了算力储备和训练技术的挑战外,人才储备也是一大障碍。DeepSeek的核心架构和技术具有相当高的创新门槛,需要顶尖的人才进行开发和调优。此外,DeepSeek的商业触角也备受关注。虽然目前仍以开源模型API接口为主服务开发者和企业,但在招聘平台上释放出的岗位信息暗示着DeepSeek或许已经在筹备自己的C端产品。
随着开源模型框架及算法系统的不断迭代,DeepSeek-V3所达成的效果可以视为顺其自然的事情。但DeepSeek的模型实力和成本优势,以及对于AGI(通用人工智能)目标的追求,使其无论切入哪一个领域都可能对同赛道公司形成压力。因此,同行业的大模型厂商需要审慎对待这家作风低调、输出稳定的公司。
(图片链接省略)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

