AI导读:

香港大学蒋镇辉教授团队对多个文生图和多模态大语言模型进行图像生成能力评估,结果显示国产模型整体表现出色,但需关注安全与伦理问题。国家已出台政策要求AI生成图片添加提示标识,利于AI健康发展。

  深圳商报·读创客户端首席记者吴吉

  2022年,AI画作《太空歌剧院》获科罗拉多州博览会数字艺术类冠军,引发广泛讨论。随着技术进步,AI生成画作已成为拍卖行的热门。人工智能领域的前沿模型技术已拓展至视觉信息深度理解与生成,“文生图”模型日益普及。那么,哪些模型能力较强?日前,香港大学经管学院蒋镇辉教授团队全面评估了15个专业文生图模型和7个多模态大语言模型的图像生成能力。结果显示,字节跳动的即梦AI、豆包及百度的文心一言在新图像生成与修改任务中领先。蒋镇辉教授指出,国产大模型进步显著,但需更多原创技术突破,人才是赢在未来的关键。

  国产模型整体表现出色

  Deepseek Janus-Pro表现欠佳

  蒋镇辉团队共测评22个模型,评估其全新图像生成与基于现有图像的修改能力。在全新图像生成方面,团队通过线上问卷和改编指令建立内容质量测试集,招募美术背景评价者从图文一致性、图像合理可靠性、美感三维度评价。即梦AI、文心一言V3.2.0等位于第一梯队。在图像修改任务中,豆包、即梦AI等也位居前列。国产模型在修改图像方面性能优异,出乎意料。DeepSeek的Janus-Pro在新图像生成方面表现不佳。

  在本次测评中,字节跳动推出的即梦AI、豆包及百度的文心一言表现抢眼。但百度的文心一格表现不尽如人意。在安全与责任方面,国外模型更胜一筹。蒋镇辉表示,当前AI图像生成能力评估处于初级阶段,存在评价偏颇等问题。特别是安全与伦理问题,现有评价体系未给予充分关注。GPT-40等模型在安全与责任方面表现较好。

  “有图有真相”时代已过,AI文生图需注意安全与伦理。蒋镇辉指出,AI助力下,图片真假难辨,甄别网络真相难度增加。团队特别注重安全与责任衡量,GPT-40等模型在此方面表现优异。国家已出台《人工智能生成合成内容标识办法》,要求AI生成图片添加提示标识,利于AI健康发展。

  图像生成技术尚待精进,参与全球竞争人才为王。蒋镇辉表示,图像生成技术为传统领域注入新活力,但技术尚不成熟。图像修改技术需进一步精进,多模态结合也面临壁垒。他呼吁开发者注重生成质量与安全责任平衡,建立内容过滤机制,增强模型安全性与透明度。同时,需社会各界共同努力,推动AI健康发展。人才是AI竞争的关键,粤港澳大湾区需长远布局,吸引培养人才。

(文章来源:读创)