Feb, 2024

扩散模型的动力学区域

TL;DR利用统计物理方法,我们研究了在空间维度和数据量非常大且得分函数经过最优训练的情况下的生成性扩散模型。我们的分析揭示了在向后生成性扩散过程中的三个不同的动力学阶段。生成动力学从纯噪声开始,首先经历了一次 “分化” 转变,其中数据的总体结构得到了揭示,通过类似相变中的对称性破缺机制实现。随后,在后续时间内出现了一次 “坍塌” 转变,其中动力学轨迹开始被吸引到记忆的数据点之一,通过类似玻璃相凝聚的机制实现。对于任何数据集,可以从相关矩阵的谱分析中找到分化时间,并可以通过数据中 “额外熵” 的估计找到坍塌时间。坍塌时间对维度和数据量的依赖性为扩散模型的维度灾难提供了彻底的表征。对于高维高斯混合模型等简单模型的解析解验证了这些结果并提供了理论框架,而对于更复杂的场景的扩展和与真实数据集的数值验证则确认了理论预测。