朱军:视频生成领域难现效率遥遥领先模型,期待“ChatGPT时刻”
AI导读:
清华大学人工智能研究院副院长朱军表示,视频生成领域难现效率遥遥领先的模型,期待视频模型实现更好用和更可控,达到人人可用的状态。朱军团队发布了高可控视频大模型Vidu Q1,强调质量而非效率和性价比。
21世纪经济报道记者白杨北京报道
“我判断,视频生成领域大概率不会出现像Deepseek这种靠效率遥遥领先的模型”。在近日召开的2025中关村论坛年会期间,清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军向21世纪经济报道记者表示。这一判断基于视频生成领域已广泛实践DeepSeek的效率,并在多款产品中有所体现。
朱军认为,视频生成领域不会出现换代式或远超其他产品的模型。他期待视频模型的“ChatGPT时刻”,即模型更好用、更可控,达到人人可用的状态。
朱军团队正在此方向进行实践,于2025中关村论坛发布了高可控视频大模型Vidu Q1。该模型在视频生成质量和可控性上有所升级,更强调质量而非效率和性价比。Vidu Q1通过接收空间布局信息作为输入,极大提升了视频模型的可控性,尤其在多主体细节可控、音效同步可控、画质增强方面取得成效。
Vidu Q1在语义指令基础上,通过融入参考图的视觉指令,可对场景中多主体的位置、大小、运动轨迹等属性进行更可控的调整,并对所有动作行为进行精准调整。同时,它能基于语义指令输出音效,并精准控制音效的长短区间和出现时间点。
朱军表示,AI视频生成过程中的随机性问题一直是难点,Vidu Q1通过技术手段引入多元素控制,实现了人为可控。这将使AI视频生成的创意呈现更极致和多元。
谈及多模态大模型的发展挑战,朱军指出,多模态分为理解和生成两部分。理解部分正向大语言模型对齐,生成部分则打通了不同模态间的连接,在时间和空间维度上表现更强。这需要在语言智能之上,完善时间、空间等维度,推动通用人工智能的发展。
朱军认为,目前市面上生成视频时长大多只有5秒,主要是成本和用户使用习惯问题。随着模型可控性增强,用户生成长视频的门槛将降低,推动使用场景从素材制作向完整叙事扩展。
朱军强调,视频生成的颠覆性突破或许不会来自效率的“代际差”,而是通过逐步实现人类意图的精准控制,迎来“人人可用”的爆发点。
(文章来源:21世纪经济报道)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

