Nov, 2022

基于扩散的场景图像生成及带掩膜对比预训练

TL;DR通过学习场景图嵌入来直接优化其与图像的对齐以生成语义可操作的图像,该方法使用了遮蔽自编码丢失和对比丢失两种方法训练嵌入,并建立了潜在扩散模型来实现场景图像的生成。在 Visual Genome 和 COCO-Stuff 数据集上,该方法表现优异,超过了当前最好的方法。