朱军：视频生成领域难现效率遥遥领先模型，期待“ChatGPT时刻”

财经聚焦 2025-03-31 14:00:48 来源：21世纪经济报道作者：网络

AI导读：

清华大学人工智能研究院副院长朱军表示，视频生成领域难现效率遥遥领先的模型，期待视频模型实现更好用和更可控，达到人人可用的状态。朱军团队发布了高可控视频大模型Vidu Q1，强调质量而非效率和性价比。

　　21世纪经济报道记者白杨北京报道

　　“我判断，视频生成领域大概率不会出现像Deepseek这种靠效率遥遥领先的模型”。在近日召开的2025中关村论坛年会期间，清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军向21世纪经济报道记者表示。这一判断基于视频生成领域已广泛实践DeepSeek的效率，并在多款产品中有所体现。

　　朱军认为，视频生成领域不会出现换代式或远超其他产品的模型。他期待视频模型的“ChatGPT时刻”，即模型更好用、更可控，达到人人可用的状态。

　　朱军团队正在此方向进行实践，于2025中关村论坛发布了高可控视频大模型Vidu Q1。该模型在视频生成质量和可控性上有所升级，更强调质量而非效率和性价比。Vidu Q1通过接收空间布局信息作为输入，极大提升了视频模型的可控性，尤其在多主体细节可控、音效同步可控、画质增强方面取得成效。

　　Vidu Q1在语义指令基础上，通过融入参考图的视觉指令，可对场景中多主体的位置、大小、运动轨迹等属性进行更可控的调整，并对所有动作行为进行精准调整。同时，它能基于语义指令输出音效，并精准控制音效的长短区间和出现时间点。

　　朱军表示，AI视频生成过程中的随机性问题一直是难点，Vidu Q1通过技术手段引入多元素控制，实现了人为可控。这将使AI视频生成的创意呈现更极致和多元。

　　谈及多模态大模型的发展挑战，朱军指出，多模态分为理解和生成两部分。理解部分正向大语言模型对齐，生成部分则打通了不同模态间的连接，在时间和空间维度上表现更强。这需要在语言智能之上，完善时间、空间等维度，推动通用人工智能的发展。

　　朱军认为，目前市面上生成视频时长大多只有5秒，主要是成本和用户使用习惯问题。随着模型可控性增强，用户生成长视频的门槛将降低，推动使用场景从素材制作向完整叙事扩展。

　　朱军强调，视频生成的颠覆性突破或许不会来自效率的“代际差”，而是通过逐步实现人类意图的精准控制，迎来“人人可用”的爆发点。

（文章来源：21世纪经济报道）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。