小米开源MiMo-Audio语音模型,性能超越GPT-4o-Audio
AI导读:
9月19日,小米正式开源首个原生端到端语音模型Xiaomi-MiMo-Audio,该模型基于创新架构和上亿小时训练数据,在语音理解及对话评测中超越同参数开源模型,性能优于Google和OpenAI的闭源语音模型。
每经AI快讯,据Xiaomi MiMo微信公众号消息,9月19日,小米正式开源首个原生端到端语音模型——Xiaomi-MiMo-Audio,该模型基于创新预训练架构和上亿小时训练数据,首次在语音领域实现基于ICL的少样本泛化,并在预训练过程中观察到明显的“涌现”行为。据介绍,在通用语音理解及对话等多项标准评测基准中,MiMo-Audio模型大幅超越了同参数量的开源模型,取得7B最佳性能;在音频理解基准MMAU的标准测试集上,MiMo-Audio语音模型超过Google闭源语音模型Gemini-2.5-Flash;在面向音频复杂推理的基准Big Bench Audio S2T任务中,MiMo-Audio技术同样超越了OpenAI闭源的语音模型GPT-4o-Audio-Preview。
(文章来源:每日经济新闻)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

