DeepSeek新版V3模型能力全面进阶,坚持开源精神
AI导读:
DeepSeek宣布其新版V3模型完成小版本升级,模型能力全面进阶,在推理、前端开发、中文写作等方面均有显著提升。同时,DeepSeek坚持开源精神,采用MIT协议,打破了闭源AI对顶级代码模型的垄断。
3月25日晚,Deepseek宣布其DeepSeek-V3模型已完成小版本升级,新版本号为DeepSeek-V3-0324(下文称“新版V3模型”)。同时,DeepSeek对模型能力进行了全面分析,这是继3月24日宣布升级后的官方详细介绍。
用户登录DeepSeek官方网页、App、小程序,关闭深度思考功能后即可体验新版V3模型。API接口和使用方式保持不变。对于非复杂推理任务,新版V3模型提供了更流畅、效果更佳的对话体验。
模型能力全面进阶
在推理能力上,新版V3模型借鉴了DeepSeek-R1的强化学习技术,显著提升了推理类任务的表现,特别是在数学、代码评测集上,得分超越了国际头部模型。
在前端开发能力方面,新版V3模型在HTML等代码生成上,代码可用性更高,视觉效果更美观。网友反馈显示,其设计能力甚至超过了DeepSeek-R1。
新版V3模型还优化了中文写作水平,尤其是中长篇文本创作的质量。同时,在中文搜索方面,联网搜索场景下,新版V3模型生成的报告内容更为详实、排版更清晰。
此外,新版V3模型在工具调用、角色扮演、问答闲聊等方面也有所提升。
坚持开源精神
在模型开源上,DeepSeek采用MIT License,允许用户通过模型输出、模型蒸馏等方式训练其他模型。
新版V3模型与DeepSeek-V3使用相同base模型,仅改进后训练方法。私有化部署只需更新checkpoint和tokenizer_config.json。模型参数约660B,开源版本上下文长度为128K。DeepSeek还分享了新版V3模型的权重。
业内人士称,DeepSeek坚持开源精神,采用MIT协议,打破了闭源AI对顶级代码模型的垄断,实现了技术平权。
此前,DeepSeek宣布从2月24日起开源5个代码库,与全球开发者社区分享研究进展。
3月1日,DeepSeek公布了模型推理的成本利润细节,假定GPU租赁成本为2美元/小时,总成本为87072美元/天。若所有tokens按DeepSeek-R1定价计算,理论日总收入为562027美元,成本利润率为545%。
(文章来源:上海证券报)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

