本文探讨了生成扩散模型的动力学性质,发现其决定性的相变点将其生成过程分为两个不同的阶段,对此我们提出了一种高斯后初始化方案,可显著提高模型性能,增加样本多样性并减少偏差,实验表明在快速采样上可实现 3 倍的 FID 改进。
May, 2023
研究表明,扩散模型在捕捉图像等自然数据中的层次组合特征方面具有潜力,通过分析层次生成模型的反向扩散过程,发现在某个阈值时间后,高层次特征的重构概率突然下降,而低层次特征的重构则在整个扩散过程中平滑演化,这为扩散模型的时间与尺度关系提供了理论研究,并将生成模型提出作为建模组合数据特性的强大工具。
Feb, 2024
利用统计物理方法,我们研究了在空间维度和数据量非常大且得分函数经过最优训练的情况下的生成性扩散模型。我们的分析揭示了在向后生成性扩散过程中的三个不同的动力学阶段。生成动力学从纯噪声开始,首先经历了一次 “分化” 转变,其中数据的总体结构得到了揭示,通过类似相变中的对称性破缺机制实现。随后,在后续时间内出现了一次 “坍塌” 转变,其中动力学轨迹开始被吸引到记忆的数据点之一,通过类似玻璃相凝聚的机制实现。对于任何数据集,可以从相关矩阵的谱分析中找到分化时间,并可以通过数据中 “额外熵” 的估计找到坍塌时间。坍塌时间对维度和数据量的依赖性为扩散模型的维度灾难提供了彻底的表征。对于高维高斯混合模型等简单模型的解析解验证了这些结果并提供了理论框架,而对于更复杂的场景的扩展和与真实数据集的数值验证则确认了理论预测。
该研究发展了一套用于理解离散时间下扩散模型数据生成过程的非渐进理论,对于一种常见的确定性采样方法,该理论建立了一个与步骤总数 $T$ 成反比例的收敛速率,对于另一种主流随机采样方法,该理论得出了一个与步骤总数 $T$ 的平方根成反比例的收敛速率,同时设计了两种加速变体,进一步提高了收敛速度。
Jun, 2023
去噪扩散模型是一种将噪声转换为数据的强大生成技术,本论文研究了离散时间扩散模型在更大范围的分布上的收敛性保证,并提出了一种加速采样器来提高收敛速度和维度依赖性。
我们提出了一个结合扩散映射和兰格朗日动力学的生成模型,通过扩散映射近似训练样本的漂移项,并在离散时间的兰格朗日采样器中实现,以生成新样本。通过设置核带宽与未调整的兰格朗日算法中使用的时间步长相匹配,我们的方法有效地解决了通常与时间步长严重随机微分方程相关的稳定性问题。我们的框架可自然地扩展到生成条件样本。通过对合成数据集和随机子网格尺度参数化条件采样问题进行实验,我们验证了我们提出的方案的性能。
Jan, 2024
本文介绍和研究了一类概率生成模型,其中潜在对象是有限时间间隔上的有限维扩散过程,观察变量是在扩散的终端点条件下绘制的。 通过随机控制的视角,我们为这种生成模型的采样和变分推断提供了统一的观点,并量化了基于扩散的生成模型的表现力。我们最后提出并分析了一个无偏模拟的方案,并提供了结果估计值的方差上限。这个方案可以实现为深度生成模型并具有随机层数。
Mar, 2019
通过分析生成图像中物体边界框的离散程度,研究发现初始噪声图像中的特定区域(称为触发补丁)在生成的图像中起到了关键作用;通过在不同的噪声之间提取和注入这些补丁,可以在目标区域生成物体。研究还提出了一种拒绝采样策略来获得最佳噪声,旨在改善提示遵从性和图像生成的位置多样性。
Jun, 2024
本文介绍了 Diffusion Hyperfeatures 框架,该框架用于将多尺度和多时间步长的特征图聚合成每像素特征描述符,可以用于图像生成和反推过程,该框架在语义关键点对应任务中表现出优秀的性能,并且具有灵活的可转移性。
通过研究发现,生成扩散模型可以用平衡统计力学的工具进行理解,并且这些模型经历了与对称性破缺现象相对应的二阶相变。作者还探讨了最近有关扩散模型与联想记忆网络的研究,并从热力学的角度进行了论述。
Oct, 2023