扩散模型分离潜变空间的等距表示学习
本文探讨了如何在Denoising Diffusion Models的latent space中嵌入图像,实现对噪声图像的去噪,并发现了该类生成模型中latent representation独立于反扩散过程网络实现的网络结构。
Dec, 2022
InfoDiffusion 增强了扩散模型,通过低维潜在变量捕捉数据中的高层次变化,从而获得高质量的样本并生成可操作的可解释潜在表示,具有生成设计等方面的潜在应用价值。
Jun, 2023
通过使用预训练和冻结的去噪扩散概率模型 (DDPM) 来逆向编码并优化隐藏域,从未见过的域图像合成,证明了这种新颖视角探索和重新思考扩散模型的数据合成广义能力的有效性。
Oct, 2023
最近,扩散模型在文本到图像(T2I)生成方面取得了显著进展,合成出高保真度和多样性内容的图像。然而,扩散模型内的潜在空间平滑性仍然很少被研究。我们通过观察到微小的潜在变化导致明显的视觉波动来揭示扩散潜在空间的非平滑性。为了解决这个问题,我们提出了Smooth Diffusion,这是一种新类别的扩散模型,既高效又平滑。具体而言,我们引入了逐步变化规范化,以确保任意输入潜在的变化与输出图像的变化之间的比例在扩散训练的任何步骤中都是恒定的。此外,我们设计了插值标准差(ISTD)度量,以有效评估扩散模型的潜在空间平滑性。广泛的定量和定性实验表明,Smooth Diffusion在T2I生成以及其他各种下游任务中都表现出更好的解决方案。Smooth Diffusion作为一个即插即用的Smooth-LoRA与不同的社区模型配合使用。代码可在此https的URL获取。
Dec, 2023
扩散模型通过生成具有合适阴影的不寻常的图像,如宇航员在月球上骑马,显示了具有组合泛化能力,但模型是如何做到的?我们在条件DDPM上进行了实验,学习生成以指定的x和y位置为中心的2D球形高斯隆起。我们的结果表明,有意义的语义潜在表示的出现是实现高性能的关键。在学习过程中,模型经历了三个不同阶段的潜在表示:(阶段A)没有潜在结构,(阶段B)二维无序状态流形,(阶段C)二维有序流形。与每个阶段相对应,我们确定了定性不同的生成行为:1)生成多个凸起,2)在不准确的x和y位置生成一个凸起,3)在正确的x和y位置生成一个凸起。此外,我们还展示了即使在不平衡的数据集中,x和y特征(位置)以倾斜的频率表示,x和y的学习过程仍然是耦合的,而不是因式分解的,这表明简单的香草味扩散模型不能学习将x和y的定位因式分解为独立的1D任务的高效表示法。这些发现表明,未来的研究需要找到归纳偏差,将生成模型推向发现和利用其输入中可因式分解独立结构的更多数据高效制度所需的地步。
Feb, 2024
我们提出了一种新的视角和框架,论证了扩散模型与交叉注意力可以作为强大的归纳偏好来促进解缠表示的学习,通过对概念标记的交叉注意力桥接编码器和扩散之间的交互,在基准数据集上不经过额外正则化就实现了卓越的解缠性能,超过了所有之前采用复杂设计的方法。这是首次揭示了扩散模型与交叉注意力的强大解缠能力,不需要复杂设计,我们期待我们的发现会激发更多对扩散进行解缠表示学习的研究,以实现对更复杂数据的分析和理解。
Feb, 2024
通过引入离散潜变量,我们提出了一种简化数据编码的方法,DisCo-Diff模型,它不依赖于预训练网络,并且在玩具数据、图像合成任务和分子对接等多个领域中验证了其改进模型性能的能力。
Jul, 2024
本研究针对扩散模型在学习语义上有意义的可组合特征表示方面的机制及其训练过程中的挑战进行了探讨。我们通过条件去噪扩散概率模型(DDPMs)进行了大量的控制实验,发现模型能够学习因子化的特征表示,但在对未见值进行插值时能力有限,表明扩散模型可以通过较少的组合示例实现组合性。我们的研究还将扩散模型中的流形形成与物理学中的渗流理论相联系,提供了对因子化表示学习突现的深入理解。
Aug, 2024
本研究解决了扩散模型在面对高维图像数据时,如何有效学习其低维分布的问题。通过假设图像数据呈现低秩高斯混合分布,并将去噪自编码器参数化为低秩模型,研究表明优化扩散模型的训练损失与解决经典子空间聚类问题等价。这一发现揭示了扩散模型如何突破维度诅咒,并展现出在学习分布时的相变特性,从而为图像编辑提供了新的视角。
Sep, 2024