豆包实时语音大模型发布,字节AI生态再升级
AI导读:
豆包实时语音大模型正式推出,带来拟人化、高情商对话等突破。字节AI产业链展现巨大潜力,情感陪伴和AI玩具产品有望受益。建议关注与字节合作基础、布局AI语音及AI玩具业务的公司。
财中社1月21日电近日,广发证券发布了一份针对传媒行业的深度报告,聚焦于豆包实时语音大模型的最新进展。1月20日,豆包实时语音大模型正式面世,并在豆包APP上全面开放使用。这款模型集成了语音理解与生成功能,实现了端到端的语音对话交互,专为中文语境和场景设计,依托先进的语音与语义联合建模技术。
据豆包大模型团队官方公众号披露,经过外部众测,豆包实时语音大模型在整体满意度上相较于GPT-4o展现出了显著优势,特别是在语音语气的自然度和情绪饱满度方面更胜一筹。该模型的成功得益于预训练阶段的Scaling+技术,以及后训练阶段采用的高质量数据和强化学习(RL)算法。这些技术共同推动了语音模型在拟人化、智商与表现力、低延迟等方面的重大突破。相较于传统语音对话任务系统,豆包实时语音大模型在对话自然度、有用性及安全性方面均有所提升。
在预训练阶段,豆包团队深入训练了各模态交织数据,精准捕捉并高效压缩了海量语音信息,通过Scaling技术,实现了语音与文本能力的深度融合和能力涌现。在后训练阶段,团队利用高质量数据与RL算法,进一步提升了模型的高情商对话能力与安全性。豆包实时语音大模型不仅实现了拟人化的情感承接、强大的声音控制和丰富的情感演绎能力,还实现了智商与表现力的平衡,以及丝滑的交互体验和超低延迟。
豆包大模型和应用布局领先,特别是在字节AI产业链中展现出巨大潜力。目前,字节旗下的通用大模型及多模态能力在国内大厂中处于领先地位。根据AI产品榜数据,截至2024年12月,字节旗下的豆包和猫箱两款App的月活跃用户数分别达到7116万和688万,成为国内AI对话和AI陪伴赛道的佼佼者。随着字节持续加大AI领域的投入,未来预计将有更多技术及应用方面的进展,字节AI产业链中的相关企业有望受益。
情感能力的提升将带动陪伴体验的升级,特别是在音频类平台接入方面值得关注。预计情感陪伴类产品将伴随模型能力的强化,在用户体验上有所提升。其中,豆包自身的对话类陪伴产品猫箱具备体验升级的巨大潜力;对于外部平台而言,以音频和对话为主的平台有望通过接入豆包情感模型,提升平台的服务能力。此外,AI玩具作为兼具教育与陪伴属性的AI硬件产品,也将显著受益于语音模型能力的提升。
投资建议方面,豆包实时语音大模型的发布进一步丰富了字节的AI生态,展现了字节AI在国内的领先地位,未来发展潜力巨大。同时,情感陪伴和AI玩具产品有望伴随语音类模型能力的强化,提升用户交互体验。建议关注以下几类公司:(1)与字节在AI领域具有合作基础的公司,如易点天下、蓝色光标等;(2)布局AI语音相关业务的公司,如盛天网络(音乐社交类平台“给麦”等)、昆仑万维(AI音乐产品Melodio和Mureka)等;(3)布局AI玩具的公司,如上海电影、奥飞娱乐等。从行业层面来看,随着AI大模型能力的提升和成本的边际下降,持续完善的AI基础设施有望更好地赋能AI游戏、AI影视、AI营销、AI情感陪伴、AI教育等多个场景。
(文章来源:财中社)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

