AI导读:

6月17日,MiniMax发布世界上首个开源的大规模混合架构推理模型MiniMax-M1,其性价比优于DeepSeek。M1支持最高100万上下文输入,计算量低,尤其适合处理百万级token的场景。DeepSeek虽在数学推理和编程测试中领先,但长文本任务中明显落后M1。

  MiniMax发布新款开源大模型,称其性价比优于Deepseek,这一消息在科技界引起了广泛关注。

  6月17日,国内大模型独角兽MiniMax正式发布世界上首个开源的大规模混合架构推理模型——MiniMax-M1,这也是“MiniMaxWeek”系列发布活动的首个重要成果。

  据MiniMax官方介绍,M1在面向生产力的复杂场景中表现卓越,其能力在开源模型中名列前茅,甚至超越了国内的某些闭源模型,接近海外的最顶尖水平。同时,M1还拥有业内最高的性价比,成为用户的优选。

  MiniMax透露,M1的一大优势在于支持业内最高的100万上下文输入,这一性能与闭源模型中的佼佼者Google Gemini 2.5 Pro相当,是DeepSeek R1的8倍。此外,M1还能实现业内最长的8万Token推理输出,进一步提升了其处理能力。

  此次MiniMax M1的最大亮点在于其成本效益。M1大模型凭借其技术优势,实现了低成本训练。据悉,M1仅用512块H800 GPU在短短三周内便完成了训练,总成本仅为53.47万美元(约385万人民币),仅为同类模型训练成本的十分之一。

  得益于其独特的混合架构,以闪电注意力机制为核心,MiniMax M1在计算长上下文输入及深度推理时表现出色。据推算,在生成长度为10万tokens的场景下,MiniMax-M1的计算量仅为DeepSeek R1的25%,在长文本处理任务中具有显著优势。

  MiniMax M1的核心竞争力在于其超长上下文处理能力和极低的算力消耗。在复杂任务(如工具调用、长文本理解)中,M1的表现接近甚至超越DeepSeek R1。其训练成本仅为R1的十分之一,且提供灵活的API定价策略,尤其适用于处理百万级token的场景(如法律文档分析、代码库理解)。相比之下,DeepSeek R1在传统数学推理和编程基准测试中略占优势,但在长文本任务中明显落后。

  在价格方面,M1在MiniMax APP和Web平台上支持不限量免费使用。对于API用户,MiniMax提供了三档定价方案,根据输入长度的不同,价格也有所差异。

  值得注意的是,DeepSeek已成为大模型厂商竞相超越的“风向标”。近期,字节跳动旗下火山引擎发布的豆包大模型1.6也采用了按“输入长度”区间定价的策略,声称其综合成本仅为DeepSeek R1的三分之一。同时,DeepSeek R1也在持续升级中,针对“幻觉”问题进行了优化,提升了模型的准确性和可靠性。然而,用户反馈显示,新版DeepSeek R1的思考时间有所延长。

(文章来源:澎湃新闻)