AI导读:

AI大模型热潮延续至2025年,人与AI的实时音视频互动成为现实。GPT-4o等模型通过RTE技术降低语音交互延时,声网等企业在实时互动领域发挥关键作用,推动AI应用场景爆发。

AI大模型的热潮在2024年至2025年间持续升温,人与AI的实时音视频互动正逐步成为现实。自GPT-4o发布以来,实时多模态成为国内外大模型厂商竞相发力的新方向。2024年5月,OpenAI在发布GPT-4o时,便开始深度探索端到端的实时多模态大模型能力。微软AI CEO Mustafa Suleyman近期宣布,微软的AI将于2024年年底拥有实时的语音界面,实现完全动态的交互。

GPT-4o支持实时语音对话,这得益于其大模型能力的进化,使得大模型能直接处理语音,相较于传统的三步骤处理方法(语音识别、语音转文字、文字转语音),响应更为及时。同时,通过应用RTE(实时互动)技术,实现了语音的实时传输,进一步降低了语音交互的延时,RTE成为人与AI交互的关键一环。

随着技术的不断成熟,AI正步入实用落地阶段。AI基础设施成为新的焦点,而“实时互动”则是能听会看的AI所必需的能力。提到实时音视频,国内实时互动领域的领军企业声网便不得不提。在OpenAI公布的语音API合作者中,声网的兄弟公司Agora名列其中,聚焦美国和国际市场。此外,微软实时语音界面的背后也有声网的贡献。

在AI浪潮的推动下,RTE行业再度风起云涌。哪些新场景将迎来爆发?哪些应用将实现巨量增长?AI+RTE将如何颠覆我们的日常生活和工作中的认知和习惯?一个实时互动的智能化时代将如何呈现?这些问题成为2025年开年行业热议的话题。

实时语音互动被视为多模态大模型交互的终极形态。现实中人与人的沟通以语音为主,视觉为辅。多模态大模型的出现推动了人与AI交互方式的变革,而语音多模态将是其中的必经之路。然而,多模态大模型实时语音对话的落地面临着一系列技术难点,包括端到端实时语音处理能力的训练成本高昂、处理语音与视频数据面临大量计算资源、计算过程易造成延迟等。

同时,多模态大模型在接入RTC后如何保障低延时、流畅的语音交互体验也是关键。声网在实践中发现,传统的三步骤(STT-LLM-TTS)在应用RTC后,响应延时可从4-5秒降低到1-2秒,而在具备端到端实时多模态处理能力后,通过RTC技术,大模型实时语音对话的延时可降到几百毫秒内。RTC技术的应用让对话式大模型的交互更智能、更具真实感。

在GenAI(生成式人工智能)时代,RTE与AI Agent的关系备受关注。声网COO刘斌分享了Agora作为语音API合作者出现在OpenAI发布的Real-time API公开测试版中的事件,以及声网在RTE2024实时互联网大会上宣布与MiniMax正在打磨国内首个Realtime API的消息。这些事件反映出当下大模型的交互正在走向实时多模态。

刘斌表示,声网作为RTE行业的引领者,最早是从RTC技术开始的。RTC是指通过互联网建立通讯网络,使用的技术已经很好。而RTE的含义是让外部环境更加沉浸式,AI的出现有助于实现更快发展。声网网络覆盖全球200多个国家和地区,通过其SDK,用户可在任何地方与世界各地的人进行实时互动,保证延时不超过400毫秒,提供优质的实时音视频体验。

微软大中华区副总裁、数字原生事业部总经理田灼谈到与声网合作的契机时表示,微软与OpenAI的合作以及在大模型市场上的考量,为声网与微软之间的商业合作奠定了基础。双方计划建立一个生态圈,旨在降低开发成本、缩短开发周期、提升开发质量。从解决方案层面来看,双方的合作是完美的互补。微软关注大模型质量,而声网则关注音视频领域,包括加速优化、降低成本、传输“最后一公里”等。

在GenAI的浪潮下,实时多模态成为大势所趋。声网作为全球实时互动云行业的开创者,在音视频领域积累了深厚的技术优势与场景实践。通过将RTE与生成式AI结合,声网推出了Conversational AI Agents方案,该方案以语音为核心,支持视频扩展,实现文本/音频/图像/视频的组合输入与输出,具备500ms超低延时、对话更自然拟真、框架灵活可拓展等一系列特性,帮助开发者与企业快速构建适配自己业务场景的AI实时语音对话服务。

随着多模态大模型能力的进化,AIGC应用场景将迎来爆发。RTE技术的接入将推动AI口语老师、AI客服、AI社交陪聊等场景的AI交互体验进一步升级。同时,多模态大模型在智能硬件场景的落地也呈现出多样化趋势,包括智能眼镜、智能手表、智能耳机等穿戴式设备,以及智能陪伴机器人、智能儿童毛绒玩具、智能戒指等场景。

据悉,声网已与国内外多家AI厂商展开合作,借助Conversational AI Agents帮助客户实现了对话式AI在智能助手、虚拟陪伴、口语陪练、语音客服、同声传译、智能硬件等多个场景的落地。在第十届实时互联网大会上,声网正式发布了RTE+AI能力全景图,从五个维度清晰呈现了当下RTE与AI相结合的技术能力、架构方案与应用场景。在大模型和生成式AI时代,RTE能力的辅助与赋能将推动AI Agent应用的落地。

刘斌认为,在实时多模态的趋势下,RTE的演进将助力AI Agent应用落地。大模型将从理解内容,进化到理解对话人的心理、情绪,最终理解对话时的人类意图,实现从“听得懂”到“听懂心”的体验革新。声网将继续在音视频领域深耕,同时拥抱AI相关的演进和变化,推出具有核心价值的产品和服务。

(文章来源:中国经营报,略有改动,旨在优化阅读与SEO效果,未删减原文核心信息。)