AI导读:

阶跃星辰发布图像编辑大模型Step1X-Edit,具备语义精准解析等三项关键能力,支持11类高频图像编辑任务。采用MLLM+Diffusion解耦式架构,提升指令泛化能力与图像可控性。

  上证报中国证券网讯(记者孙小程)4月27日,阶跃星辰正式发布并开源图像编辑大模型Step1X-Edit。该模型总参数量为19B (7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力,支持11类高频图像编辑任务类型,如文字替换、风格迁移、材质变换、人物修图等。Step1X-Edit不仅在图像编辑上表现出色,更能“听得懂、改得准、保得住”,引领图像编辑技术新潮流。

  从技术层面来看,Step1X-Edit采用了MLLM(Multimodal LLM)+ Diffusion的解耦式架构,分别负责自然语言理解与高保真图像生成。这一架构相比现有图像编辑模型,在指令泛化能力与图像可控性上具有显著优势。MLLM模块负责解析自然语言指令与图像内容,具备强大的多模态语义理解能力,能将复杂的编辑需求转化为latent控制信号。而Diffusion模块则作为图像生成器(Image Decoder),根据MLLM生成的latent信号,完成图像的重构或局部修改,确保图像细节保真与风格统一。这一创新结构解决了传统pipeline模型中“理解”和“生成”分离的问题,使得Step1X-Edit在执行复杂编辑指令时,展现出更高的准确性与控制力。

(文章来源:上海证券报·中国证券网)