Mar, 2024

ST-LDM:现实图像中基于文本引导的物体生成的通用框架

TL;DR我们提出了一种称为文本引导对象生成(TOG)的新型图像编辑场景,即在实际图像中通过文本描述在空间上生成一个新的对象。我们的模型基于 Swin-Transformer,具有全局感知自编码器和适应性压缩尺度以及分层视觉特征,用于生成下一个去噪过程的区域导向。通过引入可变形特征对齐来在融合多尺度视觉和语言信息的基础上层次性地优化空间定位,我们克服了传统注意机制只关注现有视觉特征的局限性。广泛的实验证明我们的模型在提高注意机制的定位能力的同时保留了扩散模型固有的生成能力。