加速迭代扩散反演的有效真实图像编辑

ICCVSep, 2023

加速迭代扩散反演的有效真实图像编辑

Effective Real Image Editing with Accelerated Iterative Diffusion Inversion

Zhihong Pan, Riccardo Gherardi, Xiufeng Xie, Stephen Huang

TL;DR使用生成对抗网络 (GAN) 和去噪扩散隐式模型 (DDIM) 的加速迭代扩散反演方法 (AIDI) 在图像编辑任务中取得了更高的重构准确性和更好的稳健性。

Abstract

Despite all recent progress, it is still challenging to edit and manipulate natural images with modern generative models. When using Generative Adversarial Network (gan), one major hurdle is in the inversion proc

generative models gan denoising diffusion implicit models inversion stability image editing

发现论文，激发创造

ReNoise: 迭代噪声实现真实图像反转

最近，文本引导的扩散模型取得了强大的图像处理能力。然而，将这些方法应用于真实图像需要将图像反转到预训练的扩散模型的领域中。实现准确的反转仍然是一个挑战，特别是对于训练用于生成具有少量降噪步骤的图像的最新模型。在这项工作中，我们引入了一种具有高质量操作比的反转方法，提高重建准确性而不增加操作次数。我们的方法建立在扩散采样过程的反转基础之上，采用在每个反转采样步骤中进行迭代降噪的机制。该机制通过迭代应用预训练的扩散模型，并对这些预测进行平均，从而改善了沿前向扩散轨迹预测点的逼近性。我们使用各种采样算法和模型对我们的 RenNoise 技术的性能进行评估，并进行全面的评估和比较，展示了其在准确性和速度方面的有效性。此外，我们通过在真实图像上展示基于文本的图像编辑，证实了我们的方法的可编辑性。

Mar, 2024

高保真 GAN 反演用于图像属性编辑

本研究提出了一种新颖的高保真生成对抗网络（GAN）反演框架，可以进行带有图像特定细节（例如背景、外观和照明）的属性编辑，并使用扭曲一致性咨询和自适应扭曲对齐模块来提高反演和编辑质量。

Sep, 2021

IterInv：逐步反演像素级 T2I 模型

大规模文本 - 图像扩散模型是生成根据输入文本提示的令人信服的图像的突破性发展。图像编辑研究的目标是通过修改文本提示来使用户对生成的图像具有控制能力。在这种情况下，迭代反转（IterInv）技术结合了流行的图像编辑方法，证明了 IterInv 的应用前景。

Oct, 2023

E$^{2}$GAN: 图像到图像翻译的高效 GAN 训练

通过利用大规模的文本到图像扩散模型进行数据提炼，我们提出了一种更高效的方法，通过精细调整通用化特征的基础生成对抗网络模型，而不是重新训练整个基础模型，并采用简单但有效的秩搜索过程来进行低秩适应，从而显著减少了培训成本和与每个概念相关的存储，使得移动设备能够高效地实现实时高质量的图像编辑。

Jan, 2024

联邦扩散模型的梯度反演

我们研究了扩散模型在生成高分辨率图像数据方面的应用，使用基于梯度的协作训练方法，我们设计了一种融合优化模型（GIDM），以减小梯度反演攻击的风险，并进一步提出了三重优化模型（GIDM+）来解决隐私保护方面的挑战。通过广泛的评估结果，我们发现共享梯度对于扩散模型的数据保护存在漏洞，即使是高分辨率图像也可以被高质量地重建。

May, 2024

半隐式去噪扩散模型（SIDDM）

通过匹配隐式和显式因素，我们提出了一种新的方法，以解决生成模型中的采样难题，该方法利用隐式模型匹配噪声数据的边缘分布和前向扩散的显式条件分布，以有效地匹配联合降噪分布，并获得与扩散模型相当的生成性能和比采样步骤少的模型相比更好的结果。

Jun, 2023

在空中训练：使用生成数据提高图像分类

本文介绍了一种名为 “Diffusion Inversion” 的方法，该方法使用预先训练的生成模型 Stable Diffusion，通过将图像倒换到其潜在空间中来捕获原始数据分布并确保数据覆盖，即可生成多样高质量的训练图片，此方法通过三个关键部件成功替换了原始数据集，从而提高了样本复杂度并缩短了采样时间，不仅优于泛化提示导向方法和 KNN 检索基线，还可与常见数据增强技术兼容，提高少样本学习的可靠性。

May, 2023

基于扩散驱动的 GAN 反向传递用于多模态人脸图像生成

我们提出了一种新的多模态人脸图像生成方法，通过将文本提示和视觉输入转化为逼真的人脸图像，结合了生成对抗网络和扩散模型的优势，并通过简单映射和风格调节网络将两个模型结合起来，将特征图和注意力图中的有意义的表示转化为潜空间编码。使用预训练的生成对抗网络的翻转，可以生成 2D 或 3D 感知的面部图像。我们进一步提出了一种多步骤训练策略，将文本和结构表示反映到生成的图像中。我们的方法生成逼真的 2D、多视图和风格化的人脸图像，并与输入对齐。我们使用预训练的 2D 和 3D 生成对抗网络验证了我们的方法，结果优于现有方法。

May, 2024

去噪扩散隐式模型

本文描述了一种更高效的迭代隐式概率模型 —— 去噪扩散隐式模型（DDIMs），通过构建一类非马尔科夫扩散过程来加速采样过程，相对于去噪扩散概率模型（DDPMs）可以使采样速度提升 10 倍至 50 倍。这种模型可以用于图像生成和语义意义化的图像内插。

Oct, 2020

稳健的 GAN 倒置

通过在本身潜在空间中调节生成器网络来恢复缺失的图像细节，我们的方法在重建质量和计算效率方面优于传统方法，具有更低的失真和 4 倍少的参数数量。

Aug, 2023