CVPRMar, 2024

基于文本的图像编辑的双重可推理对策

TL;DR我们通过反事实推理的单一图像的基于文本的图像编辑(TBIE)进行研究,因为它是一个精确解决要求的优雅表述:编辑后的图像应保留原始图像的保真度。通过这个表述,我们发现 TBIE 的症结在于现有技术很难在可编辑性和保真度之间取得良好的折衷,主要是由于单一图像微调过拟合造成的。为了解决这个问题,我们提出了一个双重绑定反事实推理框架(DAC)。我们首先将一个外生变量参数化为 UNet LoRA,其绑定可以编码所有图像细节。其次,我们绑定另一个由文本编码器 LoRA 参数化的外生变量,它恢复了由过拟合的第一个绑定引起的失去的可编辑性。由于第二个绑定,它仅编码从编辑后到编辑前的视觉转换,其逆操作 - 减去 LoRA - 有效地将编辑前的图像恢复到编辑后的状态,从而实现了编辑。通过大量实验证明,我们的 DAC 在可编辑性和保真度之间取得了良好的折衷。因此,我们可以支持广泛的用户编辑意图,包括添加、删除、操作、替换、风格转换和面部变化,在定性和定量评估中得到了广泛验证。