AI导读:

中国人工智能初创公司DeepSeek悄然发布了参数达6850亿个的新模型DeepSeek-V3-0324,可在消费级硬件上运行,测试指标远超Claude Sonnet 3.5。该模型降低了大模型的能耗及计算成本,有望挑战GPT-5。

  中国人工智能初创公司Deepseek周一悄然发布了新的模型——DeepSeek-V3-0324,该模型参数高达6850亿个,在无任何公告的情况下于AI存储库Hugging Face上线,却仍引发了业界的广泛关注。

  这款模型已取得MIT许可证,意味着其可自由用于商业用途。业内早期测试证实,该模型能直接在消费级硬件上运行,如高端市场的苹果Mac Studio,展现了其强大的兼容性和实用性。

  AI研究员Awni Hannun指出,新的DeepSeek-V3模型在配备M3 Ultra芯片的苹果电脑上,能以每秒20个token的速度运行。这打破了业界关于人工智能模型能力与本地化运行相冲突的早前共识,意味着数据中心并非大模型的必要搭配。

  另一位人工智能研究员Xeophon在社交平台宣称,在内部工作台上测试新版DeepSeek-V3后,发现其在测试的所有指标上均有巨大飞跃,已成为最好的非推理模型,超越了甲骨文的Claude Sonnet 3.5。

  DeepSeek-V3-0324面世时未附带白皮书,也无任何宣传,仅有一个空的ReadMe文件。这种低调的发布方式与谷精心策划的产品宣传模型形成鲜明对比。

  同时,DeepSeek的模型均为开源模型,可供任何人免费下载和使用,与按月收取费用的Claude Sonnet等商业模型截然不同。

  DeepSeek还从根本上重新构想了大型语言模型的运作方式,在特定任务期间仅激活约370亿个参数,即所谓的“专家”模块,大大降低了计算需求。

  该模型还具备两项突破性技术:多头潜在注意力(MLA)和多标记预测(MTP)。MLA增强了模型在长篇文本中保持上下文的能力,而MTP则每一步生成多个标记,而非通常的一次生成一个标记,这些创新共同将输出速度提高了近80%。

  DeepSeek体现了中国企业对效率和资源极致追求的精神,即如何以有限的计算资源实现相等或更优的性能。这种由需求驱动的创新已使中国人工智能在短时间内震惊全球。

  DeepSeek新模型的改变对业内具有重大意义,一方面大大降低了大模型的能耗及计算成本,动摇了华尔街对顶级模型基础设施投资规模的假设;另一方面,中国人工智能行业对开源的广泛共识迅速推动了国内AI行业的发展,缩短了与世界顶尖水平的距离。

  有人认为,在DeepSeek的快速追赶下,其计划在4月发布的R2模型有可能直接挑战OpenAI宣传已久的GPT-5模型。若此前景成真,中美两国在人工智能发展上的不同思路或将迎来直接交锋。

(文章来源:财联社)