KV 翻转：文本依赖的真实图像动作编辑中的 KV 嵌入学习

Sep, 2023

KV 翻转：文本依赖的真实图像动作编辑中的 KV 嵌入学习

KV Inversion: KV Embeddings Learning for Text-Conditioned Real Image Action Editing

Jiancheng Huang, Yifan Liu, Jin Qin, Shifeng Chen

TL;DR文本条件图像编辑是一个新出现的高度实用的任务，其潜力是无法衡量的。然而，大多数现有方法无法进行动作编辑，即它们无法产生与编辑提示的动作语义相符合且保留原始图像内容的结果。为了解决动作编辑问题，我们提出了 KV Inversion 方法，它可以实现令人满意的重建性能和动作编辑，可以解决两个重要问题：1）编辑结果能够匹配相应的动作，2）编辑对象能够保留原始真实图像的纹理和身份。此外，我们的方法不需要训练稳定弥散模型本身，也不需要扫描大规模数据集进行耗时的训练。

Abstract

text-conditioned image editing is a recently emerged and highly practical task, and its potential is immeasurable. However, most of the concurrent methods are unable to perform action editing, i.e. they can not p

text-conditioned image editing action editing kv inversion reconstruction performance original real image

发现论文，激发创造

使用扩散模型进行文本驱动图像编辑的 Prompt Tuning Inversion

本文提出了一种基于 Prompt Tuning Inversion 的精确快速反演技术，用于文本驱动的图像编辑，能够在保留输入图像高准确度的同时进行灵活的编辑，实验证明该方法在 ImageNet 数据集上的表现优于现有技术。

May, 2023

无需训练的非刚性编辑中的时间感知采样的潜在倒置

通过文本引导的非刚性编辑的培训自由方法，提出了一种利用稳定扩散的非刚性编辑的方法，旨在提高身份保留质量而不损害可编辑性。通过文本优化、潜在反转和时间步感知文本注入采样三个阶段来实现该方法。通过广泛的实验验证了该方法在身份保留、可编辑性和美学质量方面的有效性。

Feb, 2024

使用引导扩散模型编辑真实图像的无文本倒置技术

本文介绍了一种精确的图片逆向生成技术，实现了基于文本的图片编辑，通过引入 Pivotal inversion 和 NULL-text optimization 技术，以条件嵌入为导向，避免了模型权重的繁琐调整，并在真实照片上进行了高保真度编辑。

Nov, 2022

LocInv: 文本指导图像编辑中的定位感知反转

基于 T2I 扩散模型，本研究提出了一种局部感知反演（LocInv）方法，通过利用分割地图或边界框作为额外的定位先验，精确修正扩散过程中的交互关注图，使其与文本提示中的正确名词和形容词单词紧密对齐，从而实现对特定对象的细粒度图像编辑，并防止对其他区域产生不希望的改变。该方法在 COCO 数据集的子集上经过广泛评估，定量和定性地都取得了优秀的结果。

May, 2024

视觉指令反演：通过视觉提示进行图像编辑

通过视觉提示的图像编辑方法可以实现具有竞争力的成果。

Jul, 2023

BARET：基于平衡关注的实图像编辑引导目标文本逆转

通过目标文本翻译方案、渐进式过渡方案和平衡关注模块，我们提出了一种新的图像编辑技术，实现了包括非刚性编辑在内的各种编辑类型，并提高了图像编辑的效率和准确性。

Dec, 2023

无需反转的图像编辑与自然语言

对于扩散模型，尽管反演性编辑取得了一定进展，但基于文本的图像编辑仍面临困难。本研究提出了一种无需显式反演的编辑方法（InfEdit），通过引入特殊方差调度和统一的注意力控制机制，实现了对图像的稳定编辑和真实还原，且在各种编辑任务中表现出强大的性能和快速的实时应用潜力。

Dec, 2023

基于无条件扩散模型的实时文本驱动图像操作

该论文研究了基于扩散模型的无条件文本驱动图像编辑方法的效率，并开发了一种新算法，可以快速学习和应用图像操作，从而提高实现应用的潜力。

Apr, 2023

通过稳定扩散进行高度个性化的文本嵌入以进行图像操作

本文介绍一种基于高度个性化文本嵌入的简单而高效的方法，通过分解 CLIP 嵌入空间来实现个性化和内容操作，并且仅需要一个图像和目标文本即可实现背景、纹理和动态的操作和编辑。

Mar, 2023

使用 DDPM 反演和语义指导的实际图像编辑 LEDITS

LEDITS 是一种轻量级的图像编辑方法，结合了 Edit Friendly DDPM 反演技术和语义引导，能够实现对真实图像的细微和广泛编辑，而无需优化和扩展架构。

Jul, 2023