加速迭代扩散反演的有效真实图像编辑
最近,文本引导的扩散模型取得了强大的图像处理能力。然而,将这些方法应用于真实图像需要将图像反转到预训练的扩散模型的领域中。实现准确的反转仍然是一个挑战,特别是对于训练用于生成具有少量降噪步骤的图像的最新模型。在这项工作中,我们引入了一种具有高质量操作比的反转方法,提高重建准确性而不增加操作次数。我们的方法建立在扩散采样过程的反转基础之上,采用在每个反转采样步骤中进行迭代降噪的机制。该机制通过迭代应用预训练的扩散模型,并对这些预测进行平均,从而改善了沿前向扩散轨迹预测点的逼近性。我们使用各种采样算法和模型对我们的 RenNoise 技术的性能进行评估,并进行全面的评估和比较,展示了其在准确性和速度方面的有效性。此外,我们通过在真实图像上展示基于文本的图像编辑,证实了我们的方法的可编辑性。
Mar, 2024
本研究提出了一种新颖的高保真生成对抗网络(GAN)反演框架,可以进行带有图像特定细节(例如背景、外观和照明)的属性编辑,并使用扭曲一致性咨询和自适应扭曲对齐模块来提高反演和编辑质量。
Sep, 2021
大规模文本 - 图像扩散模型是生成根据输入文本提示的令人信服的图像的突破性发展。图像编辑研究的目标是通过修改文本提示来使用户对生成的图像具有控制能力。在这种情况下,迭代反转(IterInv)技术结合了流行的图像编辑方法,证明了 IterInv 的应用前景。
Oct, 2023
通过利用大规模的文本到图像扩散模型进行数据提炼,我们提出了一种更高效的方法,通过精细调整通用化特征的基础生成对抗网络模型,而不是重新训练整个基础模型,并采用简单但有效的秩搜索过程来进行低秩适应,从而显著减少了培训成本和与每个概念相关的存储,使得移动设备能够高效地实现实时高质量的图像编辑。
Jan, 2024
我们研究了扩散模型在生成高分辨率图像数据方面的应用,使用基于梯度的协作训练方法,我们设计了一种融合优化模型(GIDM),以减小梯度反演攻击的风险,并进一步提出了三重优化模型(GIDM+)来解决隐私保护方面的挑战。通过广泛的评估结果,我们发现共享梯度对于扩散模型的数据保护存在漏洞,即使是高分辨率图像也可以被高质量地重建。
May, 2024
通过匹配隐式和显式因素,我们提出了一种新的方法,以解决生成模型中的采样难题,该方法利用隐式模型匹配噪声数据的边缘分布和前向扩散的显式条件分布,以有效地匹配联合降噪分布,并获得与扩散模型相当的生成性能和比采样步骤少的模型相比更好的结果。
Jun, 2023
本文介绍了一种名为 “Diffusion Inversion” 的方法,该方法使用预先训练的生成模型 Stable Diffusion,通过将图像倒换到其潜在空间中来捕获原始数据分布并确保数据覆盖,即可生成多样高质量的训练图片,此方法通过三个关键部件成功替换了原始数据集,从而提高了样本复杂度并缩短了采样时间,不仅优于泛化提示导向方法和 KNN 检索基线,还可与常见数据增强技术兼容,提高少样本学习的可靠性。
May, 2023
我们提出了一种新的多模态人脸图像生成方法,通过将文本提示和视觉输入转化为逼真的人脸图像,结合了生成对抗网络和扩散模型的优势,并通过简单映射和风格调节网络将两个模型结合起来,将特征图和注意力图中的有意义的表示转化为潜空间编码。使用预训练的生成对抗网络的翻转,可以生成 2D 或 3D 感知的面部图像。我们进一步提出了一种多步骤训练策略,将文本和结构表示反映到生成的图像中。我们的方法生成逼真的 2D、多视图和风格化的人脸图像,并与输入对齐。我们使用预训练的 2D 和 3D 生成对抗网络验证了我们的方法,结果优于现有方法。
May, 2024
本文描述了一种更高效的迭代隐式概率模型 —— 去噪扩散隐式模型(DDIMs),通过构建一类非马尔科夫扩散过程来加速采样过程,相对于去噪扩散概率模型(DDPMs)可以使采样速度提升 10 倍至 50 倍。这种模型可以用于图像生成和语义意义化的图像内插。
Oct, 2020