面向对象的图像编辑的反演与重组

Oct, 2023

面向对象的图像编辑的反演与重组

Object-aware Inversion and Reassembly for Image Editing

Zhen Yang, Dinggang Gui, Wen Wang, Hao Chen, Bohan Zhuang...

TL;DR通过对比编辑任务中的原始提示和目标提示，我们可以获得众多编辑对，每个对包含一个对象及其相应的编辑目标。为了在保持对输入图像的忠实度的同时允许可编辑性，现有的编辑方法通常涉及固定数量的反转步骤，将整个输入图像投射到其更嘈杂的潜在表示，然后由目标提示指导的去噪过程。然而，我们发现每个编辑对实现理想的编辑结果所需的最佳反转步骤数量在不同编辑对之间存在显著变化，这是由于编辑难度的不同造成的。因此，当前文献依赖于固定数量的反转步骤，产生次优的生成质量，特别是在处理自然图像中的多个编辑对时。为此，我们提出了一种新的图像编辑范式，称为对象感知的反转和重组（OIR），以实现基于对象的精细编辑。具体而言，我们设计了一种新的搜索度量，通过共同考虑目标的可编辑性和非编辑区域的忠实度来确定每个编辑对的最佳反转步骤。我们使用这个搜索度量来找到在编辑图像时每个编辑对的最佳反转步骤。然后，我们单独编辑这些编辑对以避免概念不匹配。随后，我们提出了一个额外的重组步骤，将各自的编辑结果和非编辑区域无缝集成，以获得最终编辑的图像。为了系统评估我们方法的有效性，我们分别收集了用于单对象和多对象编辑的两个数据集进行基准测试。实验证明，我们的方法在编辑对象形状、颜色、材料、类别等方面取得了卓越的性能，尤其是在多对象编辑场景中。

Abstract

By comparing the original and target prompts in editing task, we can obtain numerous editing pairs, each comprising an object and its corresponding →

editing inversion steps object-level fine-grained editing multi-object editing

发现论文，激发创造

直接反演：使用 3 行代码提升基于扩散的编辑

文本引导扩散模型通过分离源图像和目标扩散分支，实现图像编辑的内容保留和编辑保真度优化，通过三行代码实现的直接反演技术在编辑基准测试中表现出卓越的性能和极大的加速。

Oct, 2023

无需反转的图像编辑与自然语言

对于扩散模型，尽管反演性编辑取得了一定进展，但基于文本的图像编辑仍面临困难。本研究提出了一种无需显式反演的编辑方法（InfEdit），通过引入特殊方差调度和统一的注意力控制机制，实现了对图像的稳定编辑和真实还原，且在各种编辑任务中表现出强大的性能和快速的实时应用潜力。

Dec, 2023

使用扩散模型进行文本驱动图像编辑的 Prompt Tuning Inversion

本文提出了一种基于 Prompt Tuning Inversion 的精确快速反演技术，用于文本驱动的图像编辑，能够在保留输入图像高准确度的同时进行灵活的编辑，实验证明该方法在 ImageNet 数据集上的表现优于现有技术。

May, 2023

KV 翻转：文本依赖的真实图像动作编辑中的 KV 嵌入学习

文本条件图像编辑是一个新出现的高度实用的任务，其潜力是无法衡量的。然而，大多数现有方法无法进行动作编辑，即它们无法产生与编辑提示的动作语义相符合且保留原始图像内容的结果。为了解决动作编辑问题，我们提出了 KV Inversion 方法，它可以实现令人满意的重建性能和动作编辑，可以解决两个重要问题：1）编辑结果能够匹配相应的动作，2）编辑对象能够保留原始真实图像的纹理和身份。此外，我们的方法不需要训练稳定弥散模型本身，也不需要扫描大规模数据集进行耗时的训练。

Sep, 2023

3D-GOI：多方位和多物体编辑的 3D GAN 全逆转

该研究提出了一种 3D 编辑框架，3D-GOI，可实现对多个物体上的仿射信息（比例、平移和旋转）进行多方面编辑。

Nov, 2023

LocInv: 文本指导图像编辑中的定位感知反转

基于 T2I 扩散模型，本研究提出了一种局部感知反演（LocInv）方法，通过利用分割地图或边界框作为额外的定位先验，精确修正扩散过程中的交互关注图，使其与文本提示中的正确名词和形容词单词紧密对齐，从而实现对特定对象的细粒度图像编辑，并防止对其他区域产生不希望的改变。该方法在 COCO 数据集的子集上经过广泛评估，定量和定性地都取得了优秀的结果。

May, 2024

图像中的主体重新定位

当前的图像处理主要集中在静态处理，本研究提出一种创新的动态处理任务 —— 主体重新定位，通过统一的、引导的填补任务来解决主体重新定位的基本子任务，同时整合了预处理和后处理技术以提高主体重新定位质量。

Jan, 2024

降低编辑性能的因素是什么？面向域的混合细化以提高 GAN 反演性能

该论文提出了一种基于图像分割技术的域特定混合细化方法（DHR），利用两种主流优化技术的优缺点来保持编辑能力和提高重建准确度，可适用于所有潜在编码嵌入方法。实验结果表明，该方法在真实图像反演和编辑方面达到了当前最先进的水平。

Jan, 2023

ReNoise: 迭代噪声实现真实图像反转

最近，文本引导的扩散模型取得了强大的图像处理能力。然而，将这些方法应用于真实图像需要将图像反转到预训练的扩散模型的领域中。实现准确的反转仍然是一个挑战，特别是对于训练用于生成具有少量降噪步骤的图像的最新模型。在这项工作中，我们引入了一种具有高质量操作比的反转方法，提高重建准确性而不增加操作次数。我们的方法建立在扩散采样过程的反转基础之上，采用在每个反转采样步骤中进行迭代降噪的机制。该机制通过迭代应用预训练的扩散模型，并对这些预测进行平均，从而改善了沿前向扩散轨迹预测点的逼近性。我们使用各种采样算法和模型对我们的 RenNoise 技术的性能进行评估，并进行全面的评估和比较，展示了其在准确性和速度方面的有效性。此外，我们通过在真实图像上展示基于文本的图像编辑，证实了我们的方法的可编辑性。

Mar, 2024

LSAP: 重新思考 GAN 潜空间中的反演保真度、感知度和可编辑性

该论文提出了潜在空间对齐反演范式，通过引入标准化样式空间和余弦距离等指标优化反演方法使得反演结果更符合期望分布，并在多个领域的实验中显示出优越性。

Sep, 2022