百度发布原生全模态大模型文心5.0

国内财经 2026-01-22 17:52:44 来源：国际金融报作者：网络

AI导读：

百度发布并上线原生全模态大模型文心5.0正式版。该模型参数达2.4万亿，采用原生全模态统一建模技术。

　　1月22日，百度发布并上线原生全模态大模型文心5.0正式版。该模型参数达2.4万亿，采用原生全模态统一建模技术，具备全模态理解与生成能力，支持文本、图像、音频、视频等多种信息的输入与输出。

　　据百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜介绍，与业界多数采用“后期融合”的多模态方案不同，文心5.0的技术路线采用统一的自回归架构进行原生全模态建模，将文本、图像、视频、音频等多源数据在同一模型框架中进行联合训练，使得多模态特征在统一架构下充分融合并协同优化，实现原生的全模态统一理解与生成。

　　此外，文心5.0采用超大规模混合专家结构，具备超稀疏激活参数，激活参数比低于 3%，在保持模型强大能力的同时，有效提升推理效率。同时，基于大规模工具环境，合成长程任务轨迹数据，并采用基于思维链和行动链的端到端多轮强化学习训练，显著提升了模型的智能体和工具调用能力。

　　应用模型的价值不在模型里，而在应用里，希望让模型在真实应用场景里‘跑得稳、答得对、用得起’。百度应用模型研发部负责人贾磊在分享文心应用模型的最新进展中指出。

　　基于文心基础大模型，百度构建了矩阵模型和专精模型。矩阵模型面向产品级应用和通用场景快速落地，包括文心Lite模型、视频大模型和语音大模型；专精模型面向行业应用和垂直场景，包括搜索闪电专精模型、电商蒸汽机模型、文心数字人大模型及行业大模型。

　　贾磊在现场分享了三项技术突破：基于声音 Token 的端到端合成大模型、5分钟超越真人的直播技术、实时交互数字人技术。

　　具体而言，基于声音Token的端到端合成大模型由满帧语音token的离散表示来定义token，以MoE大语言模型来建模韵律，基于flow的后处理来描述声音的谱分布，基于Unet的自重构特征的vocoder来描述刻画声音。

　　5分钟超越真人的直播技术通过对目标音色的少量采样，经过脸谱和化妆，通过检索增强匹配不同文体和场景的韵律模式，使合成语音具备直播带货所需的情绪、节奏与感染力。

　　而实时交互数字人技术采用三态Token联动架构，实现文本、语音、视频的流式控制，突破传统数字人三个模态串联的制作模式。在此基础上，系统自动完成动作衔接、动作编排与状态重组，并由声音Token实时驱动表情与口型，输出三态合一的视频流，具有低延迟、低成本和高表现力的特点，百度罗永浩数字人即是基于这项技术开发。

　　值得一提的是，当日，百度千帆平台产品负责人张婷还详细介绍了千帆专为行业落地打造的Agent Infra，平台提供包括文心5.0及全场景150+SOAT模型服务，集成包括百度AI搜索在内的众多工具及MCP和Agent工具链，并结合数据管理和企业级服务，可以为企业提供全周期、稳定支持多场景业务的运行环境，显著降低企业Agent创新门槛。

　　据官方数据，目前，千帆平台上已累计开发超130万个Agents，以百度独家能力“百度AI搜索”为代表的工具日均调用量已突破千万次。

（文章来源：国际金融报）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。