Mar, 2024

扩散镜:在文本到图像处理过程中解释文本编码器

TL;DR我们提出了扩散镜,一种用于分析 T2I 模型中的文本编码器的方法,通过从其中间表示生成图像。通过扩散镜,我们对两个最近的 T2I 模型进行了广泛分析。我们发现,描述多个对象的复杂场景相对简单的场景被逐步且更慢地生成;我们还发现,表示不常见概念需要更多计算,并且知识检索在各层之间逐步进行。总的来说,我们的研究结果为 T2I 流程中的文本编码器组件提供了有价值的见解。