AI导读:

2025智源大会上,智源研究院发布了原生多模态世界模型Emu3等“悟界”大模型系列。多模态大模型技术路线尚未收敛,视频生成能力处于GPT-2到GPT-3阶段,商业化应用面临挑战。预计到2025年,全球多模态大模型市场规模将达到1280亿美元。

以ChatGPT为代表的语言类大模型正在重塑内容生成方式,而多模态模型正等待着它的“iPhone时刻”。在近日召开的2025智源大会上,智源研究院(以下简称“智源”)发布了包括原生多模态世界模型Emu3在内的“悟界”大模型系列。Emu3实现了文本、图像、视频的任意组合理解与生成,仅凭单一模型即可捕捉世界规律。

AI技术的迅猛发展,每年都有新话题。2024年,价格战成为大模型的关键词。而到了2025年,风向突变,大模型应用百花齐放,反而让人有种大模型发展“变慢”了的错觉。事实上,市场上新旧产品同台竞技,呈现出立体、多维度的思考,多模态大模型尤为如此。根据当前技术成熟度评估,视频生成等核心能力仍处于GPT-2到GPT-3的过渡阶段,与产业预期存在显著差距。这意味着多模态模型将经历更长的技术沉淀期,同时也意味着更广阔的想象空间。

技术路线尚未收敛

大模型的爆发,往往源于正确的方向选择和精准的流量把握。一个现象级产品的诞生,背后需要前期大量的思考、实践和勇气。严格来说,Emu3是智源2024年10月发布的多模态模型,目前智源正在训练下一个版本。基于Emu3,智源还宣布了全球首个脑科学多模态通用基础模型——见微Brainμ。

智源研究院院长王仲远解释,当前多模态大模型的学习路径,尤其是多模态理解模型,通常先将语言模型训练至极高水平,再学习其他模态信息。但人类的学习路线并非如此,从出生起便开始与声音、物品和图像交互,而文字的学习则相对较晚。Emu3所谓的原生多模态大模型,正是在模型训练初始阶段,就将文字、图像、声音乃至脑信号等各种模态数据纳入其中进行训练。随着模态种类的增加,如何从繁杂的模态数据中筛选出有效信息,成为亟待突破的技术难题。

Sand.ai创始人兼CEO曹越提到,多模态模型发展的第一个挑战是“技术方案不够收敛”。

视频生成处于GPT-2至GPT-3阶段

曹越在微软研究院和智源研究院的经历让他对两项技术进展印象深刻:一是ChatGPT或预训练的规模化,二是GPT-o2和Deepseek R2等技术,本质上是Test-time scaling。在他所在的视频生成领域,Sora的出现让大家意识到视频生成质量可以如此之高。但从技术方向看,DiT训练方案存在很大问题,核心问题在于不够可扩展。曹越以大语言模型为例对比,认为当前视频生成技术还有很大的提升空间。

智象未来创始人兼CEO梅涛表示,目前视频生成处于GPT-2到GPT-3的阶段。他将视频生成问题总结为叙事性、稳定性和可控性三点。要保证视频在5分钟和1小时内都是完整的故事,IP要有一致性。稳定性方面做得还可以,但可控性方面还有待提升。今天的大模型还没有达到导演对镜头语言的高要求,我们还在等待ChatGPT时刻的到来。

商业化需兼顾两件事

无论是大语言模型还是多模态模型,数据的存量和增量、成本等问题都会限制其发展。但在智谱AI CEO张鹏看来,这些都是表面现象。最瓶颈、最麻烦的地方在于商业应用。传统的CV(计算机视觉)模型落地应用比较成熟,大模型在视觉理解能力或泛化能力得到提升后,可以迅速替代和填补传统视觉模型应用领域的空白需求。但视频生成方面,这两件事还没有完全统一起来,使得我们需要同时兼顾两件事。目前这两件事在技术角度上没有太好的办法融合到一起,带来的根本约束更大。

梅涛创立的智象未来关注多模态模型的应用,帮助客户和用户发挥创造力,提升生产力。从2023年到2025年,他对多模态模型应用每年都有新观察。2023年模型即产品,提供模型服务(PaaS);2024年可以销售工具(SaaS),希望做每个人都能使用的工具;2025年再升级,客户无需关心实现过程,直接提供结果,帮助客户增长并分享收益。

根据中研普华产业研究院的数据,2024年全球多模态AI市场规模达到24亿美元,年均复合增长率超过28%。预计到2025年,全球多模态大模型市场规模将达到1280亿美元,2023—2025年复合增长率高达62.3%。虽有诸多挑战,但多模态大模型的未来依然充满无限可能。

(文章来源:北京商报)