阿里巴巴发布Qwen3-Omni全模态模型,引领AI新突破
AI导读:
9月24日,阿里巴巴在2025云栖大会上发布Qwen3-Omni全模态预训练大模型,该模型在36个音视频基准测试中表现卓越,实现全模态输入输出,交互速度快,支持多语言,应用场景广泛,并已开源三款模型。
上证报中国证券网讯(记者杨翔菲)9月24日,2025云栖大会在杭州举行,阿里巴巴正式发布通义全模态预训练大模型Qwen3-Omni系列模型。在36个音视频基准测试中,Qwen3-Omni系列模型有22项达到SOTA水平,其中32项取得开源模型最佳效果,语音识别、音频理解与语音对话能力可比肩Gemini2.5-Pro,成为AI模型领域的重要突破。
作为全模态模型,Qwen3-Omni能够实现全模态输入和全模态输出,类似于人类婴儿一出生就全方位感知世界。Qwen3-Omni一开始就加入了“听”“说”“写”多模态混合训练,在预训练过程中采用混合单模态和跨模态数据。Qwen3-Omni在实现强劲音频与音视频能力的同时,单模态文本与图像性能均保持稳定,这是业内首次实现这一训练效果,展现了其技术的先进性。
Qwen3-Omni的交互速度更快,纯模型端到端音频对话延迟低至211ms,视频对话延迟低至507ms,为用户提供了更流畅的体验。同时,它支持的语言更多,包括19种语言音频输入、10种语言输出,满足了全球用户的需求。
作为一款“会说话”的模型,Qwen3-Omni应用场景广泛,未来可部署于车载、智能眼镜和手机等设备。用户还可设定个性化角色、调整对话风格,打造专属的个人IP。相较传统的录音转文字软件,Qwen3-Omni能够处理长达30分钟的音频文件,无需切割音频,即可精准识别语音、深度理解内容,大大提高了工作效率。
目前,Qwen3-Omni系列已开源三款模型:Qwen3-Omni-30B-A3B-Instruct、Qwen3-Omni-30B-A3B-Thinking和Qwen3-Omni-30B-A3B-Captioner。值得关注的是,擅长音频描述的模型Qwen3-Omni-30B-A3B-Captioner为全球首次开源的通用音频caption模型,可以清晰描述用户输入音频的特征,填补了开源社区空白,推动了AI技术的发展。
(文章来源:上海证券报·中国证券网)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

