Sep, 2024

通过语义预填充改进文本引导的物体填充

TL;DR本研究解决了文本引导物体填充中图像编辑的可控性不足问题。提出了一种新的CAscaded Transformer-Diffusion(CAT-Diffusion)框架,通过将物体填充过程分为语义预填充和高保真物体生成两个阶段,从而实现了更精准的物体生成。实验结果表明,CAT-Diffusion在OpenImages-V6和MSCOCO数据集上的表现优于现有最先进的方法。