扩散模型是否能学习语义上有意义且高效的表征？

Feb, 2024

扩散模型是否能学习语义上有意义且高效的表征？

Do Diffusion Models Learn Semantically Meaningful and Efficient Representations?

Qiyao Liang, Ziming Liu, Ila Fiete

TL;DR扩散模型通过生成具有合适阴影的不寻常的图像，如宇航员在月球上骑马，显示了具有组合泛化能力，但模型是如何做到的？我们在条件DDPM上进行了实验，学习生成以指定的x和y位置为中心的2D球形高斯隆起。我们的结果表明，有意义的语义潜在表示的出现是实现高性能的关键。在学习过程中，模型经历了三个不同阶段的潜在表示：（阶段A）没有潜在结构，（阶段B）二维无序状态流形，（阶段C）二维有序流形。与每个阶段相对应，我们确定了定性不同的生成行为：1）生成多个凸起，2）在不准确的x和y位置生成一个凸起，3）在正确的x和y位置生成一个凸起。此外，我们还展示了即使在不平衡的数据集中，x和y特征（位置）以倾斜的频率表示，x和y的学习过程仍然是耦合的，而不是因式分解的，这表明简单的香草味扩散模型不能学习将x和y的定位因式分解为独立的1D任务的高效表示法。这些发现表明，未来的研究需要找到归纳偏差，将生成模型推向发现和利用其输入中可因式分解独立结构的更多数据高效制度所需的地步。

Abstract

diffusion models are capable of impressive feats of image generation with uncommon juxtapositions such as astronauts riding horses on the moon with properly placed shadows. These outputs indicate the ability to perform compositional generalization, but how do the models do so? We perfo