基于文本的图像编辑的双重可推理对策

CVPRMar, 2024

基于文本的图像编辑的双重可推理对策

Doubly Abductive Counterfactual Inference for Text-based Image Editing

Xue Song, Jiequan Cui, Hanwang Zhang, Jingjing Chen, Richang Hong...

TL;DR我们通过反事实推理的单一图像的基于文本的图像编辑（TBIE）进行研究，因为它是一个精确解决要求的优雅表述：编辑后的图像应保留原始图像的保真度。通过这个表述，我们发现 TBIE 的症结在于现有技术很难在可编辑性和保真度之间取得良好的折衷，主要是由于单一图像微调过拟合造成的。为了解决这个问题，我们提出了一个双重绑定反事实推理框架（DAC）。我们首先将一个外生变量参数化为 UNet LoRA，其绑定可以编码所有图像细节。其次，我们绑定另一个由文本编码器 LoRA 参数化的外生变量，它恢复了由过拟合的第一个绑定引起的失去的可编辑性。由于第二个绑定，它仅编码从编辑后到编辑前的视觉转换，其逆操作 - 减去 LoRA - 有效地将编辑前的图像恢复到编辑后的状态，从而实现了编辑。通过大量实验证明，我们的 DAC 在可编辑性和保真度之间取得了良好的折衷。因此，我们可以支持广泛的用户编辑意图，包括添加、删除、操作、替换、风格转换和面部变化，在定性和定量评估中得到了广泛验证。

Abstract

We study text-based image editing (TBIE) of a single image by counterfactual inference because it is an elegant formulation to precisely address the requirement: the edited image should retain the fidelity of the original one. Through the lens of the formulation, we find that the crux

text-based image editing counterfactual inference trade-off doubly abductive counterfactual inference editability and fidelity

发现论文，激发创造

SSCR: 通过自监督因果推理进行迭代式基于语言的图像编辑

本研究提出一种自我监督对抗推理 (SSCR) 框架，以克服迭代语言图像编辑任务中的数据稀缺性，并在两个 IBLIE 数据集上取得了新的最先进 (SOTA) 的成果，即使只使用 50% 的训练数据，SSCR 也能获得与使用完整数据相当的结果。

Sep, 2020

反事实图像编辑

反事实图像编辑是生成式人工智能中的重要任务，本文提出了一种利用增强的结构因果模型来建模潜在生成因子与图像之间的因果关系，并通过一种新的家族反事实一致估计器对非可识别的反事实分布进行近似，以解决此挑战性问题。

Feb, 2024

通过 CLIP 实现反事实图像处理

通过 Contrastive-Language-Image- Pretraining (CLIP) 进行对抗操作，利用预定义的 CLIP 空间方向指导编辑，并将文本嵌入显式地转换为潜在空间，以实现准确的编码和编辑。

Jul, 2022

Forgedit：通过学习和遗忘进行文本指导的图像编辑

通过图像重建、文本嵌入以及使用 UNet 结构和扩散模型，我们设计了一种新的文本引导图像编辑方法 Forgedit，具有强大的编辑能力，并在具有挑战性的文本引导图像编辑基准测试 TEdBench 中超越了以往的方法 Imagic，实现了最新的 state-of-the-art 结果。

Sep, 2023

文字 - 图像模型：反事实解释的黑盒操作方法

该研究提出了一种基于蒸馏的黑盒逆因果解释方法，使用只有图像和其预测结果的信息生成对分类器预测进行改变所需的最少必要特征，从而达到与其他方法相当的解释效果。

Sep, 2023

基于循环注意模型的语言图像编辑

本文介绍了一种通过自然语言描述编辑图片的方法，使用基于递归注意力模型的通用框架，包括图像分割和图像着色两个子任务，并引入终止门来动态决定是否从文本描述中继续提取信息，该框架在 CoSaL、ReferIt 和 Oxford-102 Flowers 数据集上取得了良好的效果。

Nov, 2017

基于图像信息去除的图像转换

本文提出了一种利用 Image Information Removal 模块来精准地去除原始图像中与颜色和纹理相关的信息，以更好地保存文本不相关内容并避免相同映射问题，从而实现文本到图像编辑的方法。我们的方法在三个基准数据集上达到了最佳的可编辑性 - 保真度的平衡，并且我们的编辑图像比 COCO 上的之前的艺术作品更受注释者的欢迎。

May, 2023

无监督对抗故事编辑

提出了一种基于 EDUCAT 的反事实故事重写的无监督方法，该方法包括基于对 what-if 条件的因果效应估计来检测目标位置的策略，然后在流利性、连贯性和最小编辑约束条件下生成故事。在公共反事实故事重写基准测试上的评估表明，EDUCAT 实现了最佳的平衡点，能够在自动和人工评估中胜过无监督的 SOTA 方法。

Dec, 2021

生成式对抗性内省：可解释深度学习

本研究提出了一种基于生成模型的深度神经网络内省技术，使图像编辑更容易进行模型解释，该技术通过干预操作获取答案来回答反事实查询问题。在 MNIST 和 CelebA 数据集上使用所提出的内省方法揭示了给定分类器的有趣特性。

Jul, 2019

文本到图像合成的双重对抗推理

该论文提出了通过增强当前文本到图像合成框架，使用双重对抗推理机制来学习潜在空间中表示内容和风格的两个变量，从而实现生成更高质量的图像。

Aug, 2019