Oct, 2023

面向对象的图像编辑的反演与重组

TL;DR通过对比编辑任务中的原始提示和目标提示,我们可以获得众多编辑对,每个对包含一个对象及其相应的编辑目标。为了在保持对输入图像的忠实度的同时允许可编辑性,现有的编辑方法通常涉及固定数量的反转步骤,将整个输入图像投射到其更嘈杂的潜在表示,然后由目标提示指导的去噪过程。然而,我们发现每个编辑对实现理想的编辑结果所需的最佳反转步骤数量在不同编辑对之间存在显著变化,这是由于编辑难度的不同造成的。因此,当前文献依赖于固定数量的反转步骤,产生次优的生成质量,特别是在处理自然图像中的多个编辑对时。为此,我们提出了一种新的图像编辑范式,称为对象感知的反转和重组(OIR),以实现基于对象的精细编辑。具体而言,我们设计了一种新的搜索度量,通过共同考虑目标的可编辑性和非编辑区域的忠实度来确定每个编辑对的最佳反转步骤。我们使用这个搜索度量来找到在编辑图像时每个编辑对的最佳反转步骤。然后,我们单独编辑这些编辑对以避免概念不匹配。随后,我们提出了一个额外的重组步骤,将各自的编辑结果和非编辑区域无缝集成,以获得最终编辑的图像。为了系统评估我们方法的有效性,我们分别收集了用于单对象和多对象编辑的两个数据集进行基准测试。实验证明,我们的方法在编辑对象形状、颜色、材料、类别等方面取得了卓越的性能,尤其是在多对象编辑场景中。