增强扩散模型的可控性
扩散模型为一种强大的生成模型,能够从纯噪声中生成高质量的图像。条件扩散模型通过简单的文本提示能够指定所需图像的内容,然而,仅仅基于文本提示无法对最终图像的构成和布局进行细致的控制,而这取决于初始噪声分布。本文探讨了两种改进方法,并演示了当这两种方法结合使用时可以获得更好的性能。
May, 2024
该研究探讨了图像合成模型的细粒度、连续控制,提出了一种新的语义扩散引导统一框架,可以注入预训练的无条件扩散模型的语言或图像指导,并在 FFHQ 和 LSUN 数据集上进行了实验。
Dec, 2021
本文探讨了如何在 Denoising Diffusion Models 的 latent space 中嵌入图像,实现对噪声图像的去噪,并发现了该类生成模型中 latent representation 独立于反扩散过程网络实现的网络结构。
Dec, 2022
通过对不同空间布局的场景渲染进行联合去噪,SceneDiffusion 方法的关键见解在于可以通过优化扩散采样过程中的分层场景表示来实现空间分离,从而生成支持移动、调整大小、克隆以及逐层外观编辑(包括目标重塑和替换)等广泛空间编辑操作的场景。此外,可以根据参考图像生成场景,从而实现对野外图像中的目标进行移动,该方法无需进行训练,与一般的文本 - 图像扩散模型兼容,并且响应时间少于一秒。
Apr, 2024
通过在预训练的自编码器的潜在空间中应用扩散模型,引入交叉注意力层到模型体系结构中,以更少的计算要求取得接近最优的性能,实现高分辨率合成,缩小像素级 DMs 对计算资源的需求。
Dec, 2021
该研究提出了一种称为 late-constraint 的新方法,使用轻量级条件适配器来建立扩散模型内部表示和外部条件之间的相关性,并通过时间步长重采样和早期停止技术提高合成图像的质量。
May, 2023
本文使用受非平衡热力学考虑的潜变量模型 —— 扩散概率模型,提出了高质量的图像合成结果。通过根据扩散概率模型和 Langevin 动力学的去噪得分匹配之间的新颖联系设计加权变分界限进行训练,获得了最佳结果;此外,我们的模型自然地采用渐进式有损解压缩方案,可以解释为自回归解码的一般化。在无条件的 CIFAR10 数据集上,我们获得了 9.46 的 Inception 得分和 3.17 的最先进的 FID 得分。在 256x256 LSUN 上,我们获得了与 ProgressiveGAN 相似的样本质量。
Jun, 2020
Control3Diff 是结合扩散模型和 3D GAN 的 3D 扩散模型,其将潜在空间直观建模并允许通过控制输入快速生成 3D 图像。该方法在多个数据集中表现优秀,包括 FFHQ, AFHQ, and ShapeNet。
Apr, 2023