Dec, 2023

平滑扩散:精心创造扩散模型中的平滑潜在空间

TL;DR最近,扩散模型在文本到图像 (T2I) 生成方面取得了显著进展,合成出高保真度和多样性内容的图像。然而,扩散模型内的潜在空间平滑性仍然很少被研究。我们通过观察到微小的潜在变化导致明显的视觉波动来揭示扩散潜在空间的非平滑性。为了解决这个问题,我们提出了 Smooth Diffusion,这是一种新类别的扩散模型,既高效又平滑。具体而言,我们引入了逐步变化规范化,以确保任意输入潜在的变化与输出图像的变化之间的比例在扩散训练的任何步骤中都是恒定的。此外,我们设计了插值标准差 (ISTD) 度量,以有效评估扩散模型的潜在空间平滑性。广泛的定量和定性实验表明,Smooth Diffusion 在 T2I 生成以及其他各种下游任务中都表现出更好的解决方案。Smooth Diffusion 作为一个即插即用的 Smooth-LoRA 与不同的社区模型配合使用。代码可在此 https 的 URL 获取。