Apr, 2024

懒惰扩散转换器用于交互式图像编辑

TL;DR我们介绍了一种新颖的扩散变换器 LazyDiffusion,可高效地生成部分图像更新。我们的方法针对交互式图像编辑应用,其中用户使用二进制掩码和文本提示指定一系列局部图像修改。我们的生成器分为两个阶段:首先,上下文编码器对当前画布和用户掩码进行处理,以生成与待生成区域相适应的简洁全局上下文。其次,在此上下文的条件下,基于扩散的变换器解码器以 “懒惰” 的方式合成掩码像素,即仅生成掩码区域。我们的解码器的运行时间与掩码大小成比例,而我们的编码器几乎不会引入额外开销。我们证明,我们的方法在质量和保真度方面与最先进的修复方法相当,同时为典型的用户交互提供 10 倍的加速,其中编辑掩码占图像的 10%。