Mar, 2024
扩散镜:在文本到图像处理过程中解释文本编码器
Diffusion Lens: Interpreting Text Encoders in Text-to-Image Pipelines
TL;DR我们提出了扩散镜,一种用于分析T2I模型中的文本编码器的方法,通过从其中间表示生成图像。通过扩散镜,我们对两个最近的T2I模型进行了广泛分析。我们发现,描述多个对象的复杂场景相对简单的场景被逐步且更慢地生成;我们还发现,表示不常见概念需要更多计算,并且知识检索在各层之间逐步进行。总的来说,我们的研究结果为T2I流程中的文本编码器组件提供了有价值的见解。