Jan, 2024
场景图像合成:将CLIP 引导与图结构条件整合于扩散模型中
Scene Graph to Image Synthesis: Integrating CLIP Guidance with Graph
Conditioning in Diffusion Models
TL;DR利用预训练的文本到图像扩散模型和CLIP引导,我们的方法通过消除中间布局的预测,将图形知识转化为图像,从而生成与给定场景图一致的图像。实验证明,我们的方法在COCO-stuff和Visual Genome数据集的标准基准上优于现有方法。