精细的外观转换模型
本文提出了一种基于条件扩散模型的统一框架,用于图像到图像的转换,并在四个具有挑战性的图像到图像任务中测试了这个框架,即上色,修复,裁剪和 JPEG 恢复。我们的简单实现超越了所有任务上的强 GAN 和回归基线,无需任务特定的超参数调整,架构定制或需要任何辅助丢失或先进的新技术。我们揭示了扩散目标中 L2 与 L1 损失的影响,并通过实证研究证明了自我关注在神经结构中的重要性。重要的是,我们提倡一个基于 ImageNet 的统一评估协议,具有人工评估和样本质量得分(FID,Inception Score,预训练 ResNet-50 的分类准确度和与原始图像的感知距离),我们期望这个标准化的评估协议在推进图像到图像翻译研究方面起到作用。最后,我们展示了一个通用的,多任务扩散模型的执行效果与任务特定的专家模型相当或更好。
Nov, 2021
本文提出了一种基于三个特定损失的新训练协议,并提出了一种新的评估度量来正确衡量 I2I 翻译模型的潜在风格空间的平滑性,实验结果表明该方法可以显著提高生成图像的质量和插值的渐进性。
Jun, 2021
提出了一种名为 DiffI2I 的简单、高效和强大的 I2I 扩散模型,通过引入紧凑的 I2I 先验提取网络(CPEN),动态 I2I 转换器(DI2Iformer)和去噪网络来解决了传统 DM 在某些 I2I 任务中的效率和生成能力方面的问题。通过在各种 I2I 任务上进行广泛实验证明,DiffI2I 在显著减少计算负担的同时达到了 SOTA 水平。
Aug, 2023
本文提出了一种简单的方法来进行高效图像超分辨率,该方法采用了扩散模型的基本结构,通过建立领域之间的转移关系,学习统计特性的差异以促进逐步插值,并通过参考输入的 LR 图像对转移领域进行条件控制,实验结果表明,该方法不仅优于最先进的大规模超分辨率模型,也优于当前的扩散模型,此方法可以方便地扩展到其他图像到图像的任务,如图像增强、修复、去噪等。
Nov, 2023
最近,扩散模型在文本到图像 (T2I) 生成方面取得了显著进展,合成出高保真度和多样性内容的图像。然而,扩散模型内的潜在空间平滑性仍然很少被研究。我们通过观察到微小的潜在变化导致明显的视觉波动来揭示扩散潜在空间的非平滑性。为了解决这个问题,我们提出了 Smooth Diffusion,这是一种新类别的扩散模型,既高效又平滑。具体而言,我们引入了逐步变化规范化,以确保任意输入潜在的变化与输出图像的变化之间的比例在扩散训练的任何步骤中都是恒定的。此外,我们设计了插值标准差 (ISTD) 度量,以有效评估扩散模型的潜在空间平滑性。广泛的定量和定性实验表明,Smooth Diffusion 在 T2I 生成以及其他各种下游任务中都表现出更好的解决方案。Smooth Diffusion 作为一个即插即用的 Smooth-LoRA 与不同的社区模型配合使用。代码可在此 https 的 URL 获取。
Dec, 2023
本研究旨在解决图像融合的问题,通过调整图像的前景与背景以达到统一的视觉一致性。研究采用预训练的潜在扩散模型生成和初步处理模糊的初始图像,通过两种策略(在推理过程中利用高分辨率图像和引入额外的优化阶段)进一步提高初步处理后图像的清晰度,并通过在 iHarmony4 数据集上进行大量实验证明了我们方法的优越性。
Apr, 2024
S2ST 是一个新颖的框架,用于在复杂的照片逼真图像中实现全局图像转换,如汽车场景的日夜或晴雨转换,通过利用由潜在扩散模型学习到的强大图像先验,S2ST 在改善保真度的同时保持了目标领域的外观,并超越了基于 GAN 的图像转换方法和基于扩散的方法,并值得注意的是,S2ST 免除了训练领域特定的转换网络的必要性。
Nov, 2023