GPT-4o升级动漫风格图像生成，引发吉卜力版权争议

财经聚焦 2025-03-29 10:45:50 来源：蓝鲸财经作者：网络

AI导读：

GPT-4o升级动漫风格图像生成功能，引发吉卜力版权争议。OpenAI决定推迟向免费用户开放该工具，因其GPU资源紧张。GPT-4o的图像生成能力得到广泛传播，但存在版权争议。

　　蓝鲸新闻3月29日讯（记者朱俊熹）近期，AI生成图片的新风潮席卷全球，吉卜力动漫风格的图片成为社交媒体的新宠。梦核风格的小猫、“打工人”版的Hello Kitty等AI生成图片已成过去式，吉卜力动漫风图片取而代之，火遍全网。

　　本周早些时候，OpenAI对其ChatGPT的图像生成功能进行了重磅升级，用户得以通过其多模态大模型GPT-4o来生成和修改图像。在3月26日的直播中，OpenAI CEO Sam Altman亲自上阵，演示了如何在ChatGPT中将一张自拍照转换为动漫风格的图片。观众们很快发现，其画风与日本吉卜力动画工作室极为相似，并迅速在互联网上自发体验、传播。这一功能甚至被称为OpenAI模型的“第一次病毒式传播”。

图片来源：Sam Altman X

　　由于涌入体验的用户过多，OpenAI决定推迟向免费用户开放这一图像生成工具的时间。Sam Altman在社交平台X上发帖称，“我们的GPU快要炸了”。他不仅将头像换成了吉卜力风格编辑后的个人照，还自嘲道，“为了创造超级智能努力了十年，前七年半几乎没人关心，之后两年半大家因为各种事讨厌我。有一天醒来收到了成百上千条信息：‘看，我把你做成了一个吉卜力风格的帅小伙’。”

图片来源：Sam Altman X

　　AI生成“风格”涉版权争议？

　　随着AI生成的“吉卜力”图片迅速充斥互联网，一个版权争议也随之而来：这是否会侵犯吉卜力工作室动漫作品的版权？吉卜力工作室的联合创办人、动画师宫崎骏早在2016年就表达过对AI生成内容的不满。他在看到一段由AI生成的视频片段时直言，“我感到极度恶心，绝不会希望把这种技术融入我的作品中。”

　　OpenAI发言人则回应称，ChatGPT拒绝“以个别活跃艺术家的风格进行生成”，但允许生成“更广泛的工作室风格”。

　　对于其中可能牵涉的版权争议，江苏剑桥颐华律师事务所律师、专利代理师杨卫薪表示，一般情况下“风格”没有著作权，因为它只保护具体的表达，而不保护思想。但如果生成的内容和吉卜力里面的角色或者场景有较高的一致性，就可能构成侵权。

　　杨卫薪律师进一步指出，从GPT-4o在生成吉卜力风格图像上的表现来看，模型在训练时必然使用到了吉卜力工作室的作品素材，“不然大模型是没法理解这种图片风格并进行相应的生成。”如果按照中国的著作权法来看，AI抓取素材用于训练并进行内容生成，是一种侵犯复制权、信息网络传播权的行为，但目前学界和业界都想将这种行为往合理使用的方向推进。

　　GPT-4o：一句话生图成现实

　　使用AI生成图片早已不是新鲜事，但OpenAI此次在功能上的更新能够引起现象级传播，一大原因还在于其生成图片的高质量。

　　据OpenAI介绍，GPT-4o模型具备强大的文本渲染能力。蓝鲸新闻记者实测发现，4o不仅可以还原原图的文字内容，还支持通过自然语言的描述来调整文字的位置或颜色等细节。但该模型对英文字符的渲染准确度要高于中文字符，在实测过程中会出现将简体字编辑成繁体字，或生成的中文字符出错的情况。OpenAI也承认，4o模型在渲染非拉丁语言时可能会遇到困难。

图片来源：蓝鲸新闻

　　此外，GPT-4o在图像一致性方面也取得了较大进展。即使经过多轮对话的调整，其生成的图像在风格、主体外观等方面也能保持一致。这一进步将极大地提升AI生图在游戏设计、广告制作等领域的落地可能。

图片来源：蓝鲸新闻

　　据OpenAI介绍，此前其推出的AI生图模型Dall-E是扩散模型，而4o图像生成是一个自回归模型。4o系统会按照从左到右、从上到下的顺序逐步生成图像，类似于文本的书写方式，而不是像扩散模型那样一次性生成整个图像。

　　AI领域专家柯国霖在社交媒体上分析称，这体现了用自回归模型来统一多模态这一方案的优势。Dall-E是在隐空间中将图像与语言对齐，在生成图像时，模型不断在文本和图像之间进行相互转换。但这一过程必然是有损的，图像的引导能力很弱，生成的随机性大、难以精细控制。而GPT-4o这类Omni Model（全能模型）则能将对话中的图像、文本甚至更多模态统一转化为一维token序列，直接通过自回归的方式输入给模型。这样就无需再依赖文本作为桥梁，避免了信息的中途损失。更关键的是，模型每次都能保留完整的图像信息，因此能够根据用户指令对图像内容进行更细致、更可控的调整。

　　对于更多用户而言，GPT-4o此次更新带来的惊喜还体现在使用流程的便捷性上，让“一句话生图”、“用嘴改图”的可行性大幅提升。相较而言，此前主流的AI生图工具Stable Diffusion对使用者的专业能力要求较高，需要掌握不同插件及参数的设置。而Midjourney在可控性和一致性方面较弱，不适用于要求高度一致性的任务。

　　设计师章萧醇在社交平台X上直言，GPT-4o的图像能力直接推翻了之前很多创业公司的产品。“他们花了那么多时间、人力、投资人的钱去调优的算法、工作流、模型，直接被一次大模型的更新就取代了。”

　　GPT-4o模型于去年5月正式推出，主打多模态能力，与当前备受关注的o1等推理模型有所不同。但在近一年的时间内，4o都未向用户放开其图像生成功能。

　　3月28日，GPT-4o迎来部分更新，包括更擅长遵循详细的指令、提高了解决复杂技术和编码问题的能力。Sam Altman预告称，“更多更新即将到来。”（文章来源：蓝鲸财经）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。