CVPRFeb, 2019

通过对抗训练实现基于物体的文本到图像合成

TL;DR本文提出了一种基于对物体的关注的生成对抗网络,可用于复杂场景的文本到图像合成,该网络生成器长注重于文本描述中最相关的单词和预生成的语义布局,以合成显著物体,同时提出了一种快速区域卷积神经网络(Fast R-CNN)的新技术,以提供丰富的针对对象的区分信号,判断生成的物体与文本描述和预生成布局是否匹配。该提出的 Obj-GAN 在大规模 COCO 基准测试中表现出色,提高了 27%的 Inception 分数并降低了 11%的 FID 分数。通过分析它们的机制和可视化他们的注意层,提供了传统网格注意和新型对象驱动注意之间的全面比较,展示了本模型如何高质量地生成复杂场景的见解。