IterInv:逐步反演像素级 T2I 模型
本文提出了一种基于 Prompt Tuning Inversion 的精确快速反演技术,用于文本驱动的图像编辑,能够在保留输入图像高准确度的同时进行灵活的编辑,实验证明该方法在 ImageNet 数据集上的表现优于现有技术。
May, 2023
使用生成对抗网络 (GAN) 和去噪扩散隐式模型 (DDIM) 的加速迭代扩散反演方法 (AIDI) 在图像编辑任务中取得了更高的重构准确性和更好的稳健性。
Sep, 2023
基于 T2I 扩散模型,本研究提出了一种局部感知反演(LocInv)方法,通过利用分割地图或边界框作为额外的定位先验,精确修正扩散过程中的交互关注图,使其与文本提示中的正确名词和形容词单词紧密对齐,从而实现对特定对象的细粒度图像编辑,并防止对其他区域产生不希望的改变。该方法在 COCO 数据集的子集上经过广泛评估,定量和定性地都取得了优秀的结果。
May, 2024
LEDITS 是一种轻量级的图像编辑方法,结合了 Edit Friendly DDPM 反演技术和语义引导,能够实现对真实图像的细微和广泛编辑,而无需优化和扩展架构。
Jul, 2023
最近,文本引导的扩散模型取得了强大的图像处理能力。然而,将这些方法应用于真实图像需要将图像反转到预训练的扩散模型的领域中。实现准确的反转仍然是一个挑战,特别是对于训练用于生成具有少量降噪步骤的图像的最新模型。在这项工作中,我们引入了一种具有高质量操作比的反转方法,提高重建准确性而不增加操作次数。我们的方法建立在扩散采样过程的反转基础之上,采用在每个反转采样步骤中进行迭代降噪的机制。该机制通过迭代应用预训练的扩散模型,并对这些预测进行平均,从而改善了沿前向扩散轨迹预测点的逼近性。我们使用各种采样算法和模型对我们的 RenNoise 技术的性能进行评估,并进行全面的评估和比较,展示了其在准确性和速度方面的有效性。此外,我们通过在真实图像上展示基于文本的图像编辑,证实了我们的方法的可编辑性。
Mar, 2024
本文介绍了一种精确的图片逆向生成技术,实现了基于文本的图片编辑,通过引入 Pivotal inversion 和 NULL-text optimization 技术,以条件嵌入为导向,避免了模型权重的繁琐调整,并在真实照片上进行了高保真度编辑。
Nov, 2022
对于扩散模型,尽管反演性编辑取得了一定进展,但基于文本的图像编辑仍面临困难。本研究提出了一种无需显式反演的编辑方法(InfEdit),通过引入特殊方差调度和统一的注意力控制机制,实现了对图像的稳定编辑和真实还原,且在各种编辑任务中表现出强大的性能和快速的实时应用潜力。
Dec, 2023
提出了一种名为 DiffI2I 的简单、高效和强大的 I2I 扩散模型,通过引入紧凑的 I2I 先验提取网络(CPEN),动态 I2I 转换器(DI2Iformer)和去噪网络来解决了传统 DM 在某些 I2I 任务中的效率和生成能力方面的问题。通过在各种 I2I 任务上进行广泛实验证明,DiffI2I 在显著减少计算负担的同时达到了 SOTA 水平。
Aug, 2023
通过固定点迭代的方法解决了扭曲反演的技术性挑战,设计了用于图像生成和处理的基于文本引导的扩散模型,并通过提示感知的编码调整改进了反演质量,最终在多个下游任务中取得了显著的改进。
Dec, 2023
本文提出一种负激励反演方法,通过前向传播实现等效重建来加速处理图像编辑中的扩散模型,实验证明与现有方法相比,我们的方法的重建质量是可比的,更快,可用于改善扩散模型的重建质量。
May, 2023