MiniMax发布新一代语音大模型Speech-02,AI语音技术领跑全球
AI导读:
MiniMax稀宇极智发布新一代语音大模型Speech-02,在国际权威语音评测榜单夺冠,以高性能和极致性价比推动国产AI语音技术大规模商业化落地,展现中国速度。
近日,上海的AI独角兽MiniMax稀宇极智发布了新一代语音大模型Speech-02。这款模型在国际权威的语音评测榜单Artificial Analysis和Hugging Face TTS Arena上,成功击败OpenAI、ElevenLabs等国际巨头,夺得双榜第一。

Speech-02在语音模型核心技术指标:字错率WER和相似度SIM上,取得了SOTA(State-of-the-Art,当前最好)结果,用户盲听主观评价反馈也更自然、真实。具体来看,与Seed-TTS、CosyVoice 2和真实音频相比,Speech-02在中英文的零样本语音克隆中均实现了更低的WER,表明其发音错误率更低且更清晰稳定。在SIM方面,Speech-02在所有24种测试语言中均显著优于ElevenLabs的multilingual_v2模型,生成的语音更接近真人。
凭借超强技术和广泛应用的模型能力,Speech-02为用户提供超拟人、个性化、多样化的语音服务。通过“文生音”功能,给定自然语言文本描述生成符合描述的音色;通过“声音参考”功能,对任意给定语音实现灵活控制,进行感情、语速、音高、语种等无缝切换;同时支持粤语、葡萄牙语、法语等32个语种,甚至在同一段语音里也可实现多语种切换。
MiniMax语音大模型的这一成绩震惊了国外网友,他们纷纷称赞其为音频领域的游戏规则改变者。


值得注意的是,Speech-02在性能登顶的同时,其商用定价仅为全球头部语音模型ElevenLabs的四分之一,以高性能和极致性价比双重优势,推动国产AI语音技术大规模商业化落地。
新民晚报记者获悉,该模型的突破性定价策略,不仅降低了企业采用先进语音AI技术的门槛,更为智能客服、语音交互等行业带来颠覆性变革。目前,MiniMax已在文旅导览、金融服务、语音助手、AI教育等领域提供应用服务,并在AI玩具、教育学习机、汽车智能座舱等硬件场景形成成熟解决方案,与国内外多家知名企业达成深度合作。
今年1月,MiniMax发布的Speech-01语音模型,支持17种语言和上百种音色,已在北美、英国、澳大利亚等20多个国家和地区实现落地合作。

技术指标方面,字错率WER越低越好,相似度SIM越高越好。
MiniMax海外生态负责人表示,Speech-02能够轻松驾驭32个语种的不同口音和不同情绪,通过AI和对稀缺小语种的支持,未来将多语种的声音以当地最地道的发音传向全世界。
行业分析人士指出,这种“技术突破+商业落地”的双轮驱动模式,标志着我国人工智能产业已进入高质量发展新阶段。随着核心技术的持续突破和应用场景的不断拓展,国产大模型在全球AI竞赛中展现出“中国速度”。
(文章来源:上观新闻)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

