Aug, 2024

扩散变换器中的潜在空间解耦实现零-shot细粒度语义编辑

TL;DR本研究解决了扩散变换器在文本与图像潜在特征如何共同影响生成图像语义的知识空白。通过分析潜在空间,我们发现这两个空间可以解耦,并形成一个精确的语义表示空间,从而实现零-shot的细粒度语义控制。我们的研究提出了EMS框架,能够有效进行图像编辑,促进更精细的语义操控。