Nov, 2022
基于扩散的场景图像生成及带掩膜对比预训练
Diffusion-Based Scene Graph to Image Generation with Masked Contrastive
Pre-Training
TL;DR通过学习场景图嵌入来直接优化其与图像的对齐以生成语义可操作的图像,该方法使用了遮蔽自编码丢失和对比丢失两种方法训练嵌入,并建立了潜在扩散模型来实现场景图像的生成。在Visual Genome和COCO-Stuff数据集上,该方法表现优异,超过了当前最好的方法。