ECCVDec, 2019

弱监督图像生成中的风格和语义控制

TL;DR我们提出了一种弱监督方法,实现复杂场景下的有条件图像生成,在该方法中,用户可以对场景中出现的对象进行精细控制。我们利用稀疏语义地图来控制对象的形状和类别,以及文本描述或属性来控制局部和全局风格,同时引入语义注意力模块来支持文本描述的条件,该模块的计算成本与图像分辨率无关。为了进一步增强场景的可控性,我们提出了一个两步生成方案来分解背景和前景。我们使用大词汇目标检测器产生的标签地图来训练模型,这使我们能够访问未注释的数据,并提供结构化实例信息。在这样的设置下,我们报告了比全监督设置更好的 FID 得分。我们还展示了我们的模型在 COCO 和 Visual Genome 等复杂数据集上操作场景的能力。