Jan, 2024

场景图像合成:将 CLIP 引导与图结构条件整合于扩散模型中

TL;DR利用预训练的文本到图像扩散模型和 CLIP 引导,我们的方法通过消除中间布局的预测,将图形知识转化为图像,从而生成与给定场景图一致的图像。实验证明,我们的方法在 COCO-stuff 和 Visual Genome 数据集的标准基准上优于现有方法。