用扩散模型在图像之间进行插值

ICMLJul, 2023

Interpolating between Images with Diffusion Models

Clinton J. Wang, Polina Golland

TL;DR通过使用潜在扩散模型进行无监督插值，我们在降噪、文本嵌入和主题姿势上实现了一致而令人信服的图像插值，而传统的数量指标如 FID 则无法准确度量插值质量。

Abstract

One little-explored frontier of image generation and editing is the task of interpolating between two input images, a feature missing from all currently deployed image generation pipelines. We argue that such a f

image generation interpolation latent diffusion models denoising clip

发现论文，激发创造

DiffMorpher：释放扩散模型在图像变形中的能力

通过使用扩散模型，我们提出了 DiffMorpher，实现了平滑且自然的图像插值，不仅能捕捉图像的语义信息，而且在多个对象类别中实现了比以前的方法更好的图像变形效果。

Dec, 2023

混合潜在扩散

本研究介绍了一种基于文本的图像编辑方法，利用最新的扩散模型对一些基于文本主题的地方图像进行编辑，通过结合扩散模型的速度和 Blended Diffusion，提高了编辑的效率，并通过优化方法来解决扩散模型无法完美重建图像的问题，实现了比当前方法更高的精度和速度

Jun, 2022

调色板：图像到图像扩散模型

本文提出了一种基于条件扩散模型的统一框架，用于图像到图像的转换，并在四个具有挑战性的图像到图像任务中测试了这个框架，即上色，修复，裁剪和 JPEG 恢复。我们的简单实现超越了所有任务上的强 GAN 和回归基线，无需任务特定的超参数调整，架构定制或需要任何辅助丢失或先进的新技术。我们揭示了扩散目标中 L2 与 L1 损失的影响，并通过实证研究证明了自我关注在神经结构中的重要性。重要的是，我们提倡一个基于 ImageNet 的统一评估协议，具有人工评估和样本质量得分（FID，Inception Score，预训练 ResNet-50 的分类准确度和与原始图像的感知距离），我们期望这个标准化的评估协议在推进图像到图像翻译研究方面起到作用。最后，我们展示了一个通用的，多任务扩散模型的执行效果与任务特定的专家模型相当或更好。

Nov, 2021

NoiseDiffusion: 利用扩散模型进行图像内插的噪声补偿 —— 超越球面线性内插

通过引入微小的高斯噪声并增加约束条件，NoiseDiffusion 方法能够改善无效噪声导致的图像插值问题，从而实现在噪声空间进行插值并解决信息丢失挑战，使得自然图像得以有效插值而不引入伪影或信息丢失，从而获得最佳插值结果。

Mar, 2024

平滑扩散：精心创造扩散模型中的平滑潜在空间

最近，扩散模型在文本到图像 (T2I) 生成方面取得了显著进展，合成出高保真度和多样性内容的图像。然而，扩散模型内的潜在空间平滑性仍然很少被研究。我们通过观察到微小的潜在变化导致明显的视觉波动来揭示扩散潜在空间的非平滑性。为了解决这个问题，我们提出了 Smooth Diffusion，这是一种新类别的扩散模型，既高效又平滑。具体而言，我们引入了逐步变化规范化，以确保任意输入潜在的变化与输出图像的变化之间的比例在扩散训练的任何步骤中都是恒定的。此外，我们设计了插值标准差 (ISTD) 度量，以有效评估扩散模型的潜在空间平滑性。广泛的定量和定性实验表明，Smooth Diffusion 在 T2I 生成以及其他各种下游任务中都表现出更好的解决方案。Smooth Diffusion 作为一个即插即用的 Smooth-LoRA 与不同的社区模型配合使用。代码可在此 https 的 URL 获取。

Dec, 2023

AID：文本图像扩散的注意力插值

条件扩散模型通过注意力插值技术实现图像的无缝插值，可用于处理潜在空间的插值问题，同时解决了文本或姿势等特殊条件下的插值问题，并提供了更好的一致性、平滑性和效率性。

Mar, 2024

基于范数引导的文本到图像生成潜空间探索

本文提出一种新的插值方法和质心评估技术，定义了一种新的非欧几里得度量，基于范数先验来插值 Seed。实验表明，这种新的技术显著提高了图像生成的稀有概念和少量数据学习性能。

Jun, 2023

DiffusionCLIP: 文本引导下的扩散模型用于稳健的图像处理

该研究提出了一种名为 DiffusionCLIP 的新方法，该方法使用扩散模型进行文本驱动的图像操作，比现有基线表现更为优异，并允许简便的多属性操作。

Oct, 2021

去噪扩散概率模型

本文使用受非平衡热力学考虑的潜变量模型 —— 扩散概率模型，提出了高质量的图像合成结果。通过根据扩散概率模型和 Langevin 动力学的去噪得分匹配之间的新颖联系设计加权变分界限进行训练，获得了最佳结果；此外，我们的模型自然地采用渐进式有损解压缩方案，可以解释为自回归解码的一般化。在无条件的 CIFAR10 数据集上，我们获得了 9.46 的 Inception 得分和 3.17 的最先进的 FID 得分。在 256x256 LSUN 上，我们获得了与 ProgressiveGAN 相似的样本质量。

Jun, 2020

基于扩散模型的图像属性编辑的零样本反演过程

零样本反演过程 (ZIP) 是一个框架，将生成的视觉参考和文本引导注入预训练的去噪扩散模型的语义潜空间中，仅使用一个小型神经网络，ZIP 在文本提示的直观控制下产生多样的内容和属性，并对真实图像上的域内和域外属性操作展现了显著的鲁棒性。与最先进的方法相比，ZIP 在提供逼真的编辑效果的同时，生成了同等质量的图像。

Aug, 2023