LocInv: 文本指导图像编辑中的定位感知反转

CVPRMay, 2024

LocInv: 文本指导图像编辑中的定位感知反转

LocInv: Localization-aware Inversion for Text-Guided Image Editing

Chuanming Tang, Kai Wang, Fei Yang, Joost van de Weijer

TL;DR基于 T2I 扩散模型，本研究提出了一种局部感知反演（LocInv）方法，通过利用分割地图或边界框作为额外的定位先验，精确修正扩散过程中的交互关注图，使其与文本提示中的正确名词和形容词单词紧密对齐，从而实现对特定对象的细粒度图像编辑，并防止对其他区域产生不希望的改变。该方法在 COCO 数据集的子集上经过广泛评估，定量和定性地都取得了优秀的结果。

Abstract

large-scale text-to-image (T2I) diffusion models demonstrate significant generation capabilities based on textual prompts. Based on the T2I diffusion models, text-guided image editing research aims to empower use

large-scale text-to-image t2i diffusion models text-guided image editing localization-aware inversion cross-attention maps

发现论文，激发创造

使用扩散模型进行文本驱动图像编辑的 Prompt Tuning Inversion

本文提出了一种基于 Prompt Tuning Inversion 的精确快速反演技术，用于文本驱动的图像编辑，能够在保留输入图像高准确度的同时进行灵活的编辑，实验证明该方法在 ImageNet 数据集上的表现优于现有技术。

May, 2023

IterInv：逐步反演像素级 T2I 模型

大规模文本 - 图像扩散模型是生成根据输入文本提示的令人信服的图像的突破性发展。图像编辑研究的目标是通过修改文本提示来使用户对生成的图像具有控制能力。在这种情况下，迭代反转（IterInv）技术结合了流行的图像编辑方法，证明了 IterInv 的应用前景。

Oct, 2023

使用引导扩散模型编辑真实图像的无文本倒置技术

本文介绍了一种精确的图片逆向生成技术，实现了基于文本的图片编辑，通过引入 Pivotal inversion 和 NULL-text optimization 技术，以条件嵌入为导向，避免了模型权重的繁琐调整，并在真实照片上进行了高保真度编辑。

Nov, 2022

无需反转的图像编辑与自然语言

对于扩散模型，尽管反演性编辑取得了一定进展，但基于文本的图像编辑仍面临困难。本研究提出了一种无需显式反演的编辑方法（InfEdit），通过引入特殊方差调度和统一的注意力控制机制，实现了对图像的稳定编辑和真实还原，且在各种编辑任务中表现出强大的性能和快速的实时应用潜力。

Dec, 2023

通过混合掩膜信息融合提升文本到图像编辑

基于扩散模型，本文旨在系统性地改进文本引导的图像编辑技术，以解决其局限性，通过在模型的自注意机制中引入人为注释来限制编辑范围，并将编辑后的图像与源图像和构建的中间图像进行融合，实验证明所提出的 ``MaSaFusion'' 显著提高了现有的文本到图像编辑技术。

May, 2024

Inv-Adapter：基于图像反转和轻量级适配器的 ID 个性化生成

利用预训练的文本图像模型通过 DDIM 图像反转提取 ID 图像的传播域表示，不需要额外的图像编码器，然后通过精心设计的轻量级注意力适配器将提取的 ID 提示特征和文本图像模型的中间特征有效地嵌入到基础文本图像模型中，从而为 ID 定制生成和模型规模上提出的 Inv-Adapter 在 ID 忠实度、生成忠诚度、速度和训练参数等方面进行了广泛的实验评估表明其具有很高的竞争力。

Jun, 2024

iEdit: 弱监督下的本地化文本指导图像编辑

提出了一种新的学习方法 iEdit，用于文本引导的图像编辑，包括数据集的自动构建、无监督损失函数和分割掩模引导编辑。该模型在 200K 个样本的数据集上进行训练，并在图像保真度、CLIP 对齐性得分和编辑生成和真实图像方面显示出优越的结果。

May, 2023

利用自动概念定位与遗忘进行文本引导的图像编辑

借助图像到图像扩散模型和文本引导，本文提出了一种名为 “定位与遗忘”（LaF）的新方法，通过比较目标提示的句法树和输入图像中的场景描述，有效地定位图像中需要修改的潜在目标概念，并在生成的图像中消除其存在的线索，从而在定性和定量方面表现出在文本引导图像编辑任务中的卓越性能。

May, 2024

语言引导的局部渗透用于交互式图像检索

提出使用语言引导的本地渗透系统模块，包括语言提示视觉定位模块和带有本地感知的文本渗透模块，用于精确修改引用图像并生成图像 - 文本滤入表示。实验结果表明，我们的方法优于大部分最先进的交互图像检索方法。

Apr, 2023

无需训练的非刚性编辑中的时间感知采样的潜在倒置

通过文本引导的非刚性编辑的培训自由方法，提出了一种利用稳定扩散的非刚性编辑的方法，旨在提高身份保留质量而不损害可编辑性。通过文本优化、潜在反转和时间步感知文本注入采样三个阶段来实现该方法。通过广泛的实验验证了该方法在身份保留、可编辑性和美学质量方面的有效性。

Feb, 2024