DeepSeek-V3爆火，低成本AI训练模式引关注

财经聚焦 2025-01-06 15:28:23 来源：界面新闻作者：网络

AI导读：

DeepSeek发布新一代MoE模型DeepSeek-V3，凭借极低的训练成本和高效的架构设计在行业内掀起波澜，低成本AI训练模式引发关注，同行业大模型厂商需审慎对待。

2024年底，Deepseek（深度求索）凭借新一代MoE模型DeepSeek-V3的发布，再次在行业内掀起波澜。这款拥有6710亿参数，其中激活参数达370亿，经过14.8万亿token预训练的模型，不仅在知识类任务和代码能力上接近业界顶尖水平，更在数学能力上显著领先。

DeepSeek-V3的最大亮点在于其极低的训练成本。据DeepSeek透露，该模型的总训练成本仅为557.6万美元，完整训练消耗了278.8万个GPU小时，仅为同等性能水平模型训练成本的十分之一。这一低成本模式引发了业界的广泛关注，被视为一种可能的“AI拼多多”模式。

DeepSeek的创新不仅体现在训练成本上，更在于其独特的训练技术和架构设计。该模型采用了模型压缩、专家并行训练、FP8混合精度训练等一系列创新技术，以及MoE+MLA的高效架构设计，实现了计算的高效和推理效率的提升。此外，DeepSeek-V3还首次引入了无辅助损失的负载均衡策略，进一步提升了模型性能。

随着DeepSeek-V3的爆火，业界开始思考这种低成本模式是否可复制。特别是在英伟达高端GPU显卡在中国大陆遭禁后，算力不足成为国内AI公司面临的一大难题。而DeepSeek背后的开发公司幻方，凭借上万张英伟达显卡的储备，以及DeepSeek-V3仅用少量卡完成模型训练的成功案例，为行业提供了一种可能的解决方案。

然而，要复制DeepSeek的成功并不容易。除了算力储备和训练技术的挑战外，人才储备也是一大障碍。DeepSeek的核心架构和技术具有相当高的创新门槛，需要顶尖的人才进行开发和调优。此外，DeepSeek的商业触角也备受关注。虽然目前仍以开源模型API接口为主服务开发者和企业，但在招聘平台上释放出的岗位信息暗示着DeepSeek或许已经在筹备自己的C端产品。

随着开源模型框架及算法系统的不断迭代，DeepSeek-V3所达成的效果可以视为顺其自然的事情。但DeepSeek的模型实力和成本优势，以及对于AGI（通用人工智能）目标的追求，使其无论切入哪一个领域都可能对同赛道公司形成压力。因此，同行业的大模型厂商需要审慎对待这家作风低调、输出稳定的公司。

（图片链接省略）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。