重新思考隐含高斯结构以理解扩散模型的泛化能力
通过定义通用性测量,本文研究了扩散概率生成模型的泛化能力。我们发现确定性采样器生成的数据与训练集高度相关,因此泛化能力差。通过实验,我们验证了足够训练的扩散模型与经验最优解之间的微小区别对于模型具有关键性影响,并提出了另一个无潜在泛化问题的训练目标,该目标返回与原模型类似的模型,从而验证了训练扩散模型的泛化能力。
May, 2023
通过基于分数的逆扩散算法生成的高质量样本提供了证据,表明尽管遭受维度灾难的困扰,用于降噪训练的深度神经网络(DNN)可以学习高维密度。然而,关于训练集记忆化的最近报导引发了一个问题,即这些网络是否正在学习数据的“真实”连续密度。在本文中,我们展示了在非重叠的数据集子集上训练的两个降噪DNN学习到几乎相同的评分函数,从而学习到相同的密度,并且只需要非常少的训练图像。这种强大的泛化表明DNN架构和/或训练算法中的强大归纳偏差与数据分布的特性相一致。我们通过对这些内容进行分析来证明这一点,证明了去噪器在适应底层图像的基础上执行了一个收缩操作。对这些基础的检查揭示了轮廓线和均匀图像区域中的振荡谐波结构。我们通过证明即使在训练于低维流形等图像类别的情况下,这些经过训练的去噪器也会生成这种几何自适应谐波表示来表明它们在归纳偏差方面具有偏好。此外,我们还展示了当在已知最优基础为几何自适应谐波的常规图像类别上进行训练时,网络的去噪性能接近最优。
Oct, 2023
扩散模型是近年来引起重要研究兴趣的高质量样本生成方法,我们的研究旨在深入理解扩散模型的记忆行为,包括有效模型记忆的定义与影响因素的量化分析。我们的实证研究发现数据分布、模型配置和训练过程等因素对记忆行为有重要影响,并且在扩散模型中,将训练数据与随机标签进行关联显著触发记忆行为。这对扩散模型的使用者具有实际意义,并为深度生成模型的理论研究提供了线索。
Oct, 2023
扩散模型在图像生成、解决逆问题和文本到图像合成等各种应用中展示了领先的性能。我们揭示了与大多数其他生成模型截然不同的“一致模型可重现性”现象,通过广泛的实验表明,扩散模型在相同初始噪声输入和确定性求解器采样时,倾向于产生几乎相同的输出内容。此模型可重现性在不同的训练环境下均成立,包括记忆化和泛化模式。进一步的分析提供了对“记忆化模式”中模型可重现性的理论解释,并揭示此有价值的特性适用于许多扩散模型的变种。更深入理解此现象有可能产生基于扩散模型的更可解释和可控的数据生成过程。
Oct, 2023
通过理论支持,本文提出一种优雅而有效的加权策略,解决了扩散模型中常数加权策略带来的估计偏差问题。并通过实证评估表明,提出的去偏估计方法在样本质量、训练效率和采样效率方面均显著优于基准方法。
Oct, 2023
扩散模型在理论和实践中的广义化能力、一般化差距以及模型对模式变化的敏感性进行了全面的理论分析和定量分析,证明了其在样本大小和模型容量上具有多项式级别的小一般化误差,使得其非常适用于实际应用。
Nov, 2023
本研究解决了扩散模型在面对高维图像数据时,如何有效学习其低维分布的问题。通过假设图像数据呈现低秩高斯混合分布,并将去噪自编码器参数化为低秩模型,研究表明优化扩散模型的训练损失与解决经典子空间聚类问题等价。这一发现揭示了扩散模型如何突破维度诅咒,并展现出在学习分布时的相变特性,从而为图像编辑提供了新的视角。
Sep, 2024
本研究解决了基于变换器的去噪网络(如扩散变换器)是否具有可通过几何自适应谐波基表达的归纳偏见的问题。研究发现,改进局部注意力窗口的设置可以显著提高扩散变换器的泛化能力,尤其是在可用训练数据较少的情况下,验证了这些归纳偏见在增强泛化和生成质量方面的作用。
Oct, 2024
本研究探讨了扩散模型的泛化能力,特别关注学习的评分函数的隐藏属性。我们发现,随着扩散模型从记忆转向泛化,其对应的非线性扩散去噪器表现出越来越强的线性特征。这一发现表明扩散模型在数据生成时具有捕捉和利用训练数据集高斯结构的倾向,这在模型容量相对较小时更为明显。
Oct, 2024