通过联合与个别组件分析实现扩散模型的局部编辑
本文提出了一个名为InterFaceGAN的新框架,用于解释GAN学习到的语义面部编辑,并深入研究不同语义如何编码在GAN的潜在空间中。我们发现,精心训练的生成模型的潜在编码实际上学习了一个分离的表示,在线性变换后解旋,通过子空间投影来解开某些绑定属性,实现更精确的面部特征控制,并产生可控的面部属性表示的结果表明GAN具有生成高保真图像的能力。
Jul, 2019
本文介绍了一种基于自然语言描述和兴趣区域掩码进行本地(面向区域的)在通用自然图像中进行编辑的解决方案,利用 CLIP 预训练语言-图像模型指导编辑并使用扩散概率模型生成自然外观结果,以及应用扩散过程的增强进行抗击对抗攻击;通过在多个基线和相关方法上的定量和定性比较,表明该方法在整体逼真度、保护背景和匹配文本方面均优于现有解决方案,并展示了多种文本驱动的编辑应用,如添加新对象,删除/替换/修改现有对象,背景替换和图像推理。
Nov, 2021
本研究介绍了一种基于文本的图像编辑方法,利用最新的扩散模型对一些基于文本主题的地方图像进行编辑,通过结合扩散模型的速度和 Blended Diffusion,提高了编辑的效率,并通过优化方法来解决扩散模型无法完美重建图像的问题,实现了比当前方法更高的精度和速度
Jun, 2022
本文探讨了如何在Denoising Diffusion Models的latent space中嵌入图像,实现对噪声图像的去噪,并发现了该类生成模型中latent representation独立于反扩散过程网络实现的网络结构。
Dec, 2022
该研究使用基于 GAN latent space 的技术和生成式扩散模型,通过条件输入的两个 latent codes(空间内容掩码和扁平化样式嵌入)对其生成进行控制,从而实现图像的有效操控和转化。
Feb, 2023
现有的属性编辑方法将语义属性视为二进制,导致每个属性只能进行一次编辑。然而,如眼镜、微笑或发型等属性展示了广泛的多样性。在本研究中,我们通过建模属性编辑的多维性质来提出“多样属性编辑”的任务,从而使用户能够为每个属性生成多个合理的编辑。我们利用预训练 GAN 的分离潜空间和训练一个去噪扩散概率模型(DDPM)来学习用于多样编辑的潜分布。具体而言,我们通过嵌入具有单个属性变化的图像对来训练 DDPM,从而得到能够实现多样属性编辑的潜子空间。在高度压缩的潜空间中应用扩散使我们能够在有限的计算资源内模拟丰富的编辑分布。通过广泛的定性和定量实验,我们展示了我们的方法在多样属性编辑方面的有效性。我们还展示了我们的方法在各种面部属性的三维编辑方面的结果。
Nov, 2023
本论文提出了一种无监督的方法来发现基于文本到图像扩散模型的潜在语义,无需依赖文本提示,通过对比学习目标,在不同领域的图像中发现多样的语义,实现高度解耦的编辑。
Dec, 2023
本研究解决了扩散变换器在文本与图像潜在特征如何共同影响生成图像语义的知识空白。通过分析潜在空间,我们发现这两个空间可以解耦,并形成一个精确的语义表示空间,从而实现零-shot的细粒度语义控制。我们的研究提出了EMS框架,能够有效进行图像编辑,促进更精细的语义操控。
Aug, 2024
本研究解决了扩散模型(DMs)中局部图像操作的挑战,填补了现有方法只能发现全局属性的空白。我们提出了一种无监督的方法,通过降噪网络的Jacobian将感兴趣区域与潜在空间中的子空间建立联系,从而识别可以实现局部图像编辑的潜在方向。实验结果表明,该方法在多种数据集上的表现优于现有技术,能够生成更具语义一致性的局部编辑。
Aug, 2024
本研究针对扩散模型语义空间理解不足的问题,提出了一种新的无监督、单步的低秩可控图像编辑方法(LOCO Edit)。通过发现学习的后验均值预测器在特定噪声水平范围内的局部线性特性和雅可比矩阵的奇异向量位于低维语义子空间,LOCO Edit实现在扩散模型中的精确本地编辑,展现了良好的可组合性和转移性。实验结果表明该方法在多个文本到图像扩散模型中的有效性和效率。
Sep, 2024