AI导读:

近期,大模型开源潮从文本模型扩展到视频生成领域,阿里巴巴、腾讯等大模型厂商纷纷开源视频生成模型,推动行业技术进步。在VBench视频生成模型评测榜单上,开源模型已占据重要地位。

大模型开源潮已从文本模型扩展到视频生成领域。2月25日,阿里巴巴率先开源了万相2.1视频生成模型,随后3月6日,腾讯紧跟步伐,开源了其图生视频模型。同时,阶跃星辰也计划在本月内开源其图生视频模型,标志着视频生成技术的进一步开放。

据腾讯官方介绍,新开源的图生视频模型拥有130亿参数,适用于写实视频制作、动漫角色生成等多个领域,开源内容包括权重、推理代码和LoRA训练代码。用户仅需上传一张图片,并简要描述画面运动和镜头调度,即可生成5秒短视频。此外,用户还能通过输入文字或音频,让图片中的人物对口型说话或唱歌。

腾讯展示的视频生成案例包括爱因斯坦吃苹果、梵高喝红酒等,从演示视频来看,主体运动流畅,对口型效果逼真。

2月,阿里巴巴开源的万相2.1视频生成模型提供14B和1.3B两种参数规格,支持无限长1080P视频的高效编解码,并首次实现了中文文字视频生成功能。

谈及视频生成的成熟度和开源的意义,腾讯混元多模态生成技术负责人凯撒曾表示,当前视频生成开源生态尚不成熟,主要原因是开源的视频生成底模与闭源存在较大差距。视频生成所需的算力和数据消耗量远超图像生成,因此业内不愿将高成本模型开源。然而,闭门造车导致许多人无法接触到最优模型,因此混元在去年12月决定开源文生视频模型。

业内人士指出,视频生成模型的技术路径仍在探索中,开源有助于推动行业进步。

随着多家大模型厂商推动开源,视频生成大模型中,开源模型已占据重要地位。在VBench视频生成模型评测榜单上,万相2.1模型位列第一,总分86.22%,超越闭源的Sora。前20名中,另有6款模型为开源模型。腾讯推出的HunyuanVideo位列第12位,智谱旗下的CogVideoX1.5-5B位列第15位,均为开源模型。在榜单第20名至第50名中,开源模型数量远超闭源模型。

图像生成模型作为图生视频模型的基础,香港大学经管学院发布了《人工智能模型图像生成能力综合评测报告》。在新图像生成内容质量方面,字节即梦AI位居榜首,前20名内包括DALL-E3、Hunyuan-DiT等多个开源模型。

(文章来源:第一财经