使用场景图实现交互式图像生成
研究使用视觉图像中的基于场景图谱的结构化表示,通过端到端模型建模图像中对象之间的关系,通过消息传递技术可以更好预测对象及其关系, 实验表明该模型显著优于以前的方法。
Jan, 2017
本文提出了一种新颖的神经网络模型,名为多级场景描述网络(MSDN),通过动态图对对象、短语和描述区域进行对齐,并使用特征细化结构在三个语义任务的三个级别之间传递消息,从而以端到端方式共同解决三个视觉任务,包括目标检测、场景图生成和区域字幕。经过实验验证,该方法可以取得较好的效果。
Jul, 2017
本研究提出使用生成对抗网络(GAN)生成细粒度场景图的方法,该方法首先生成单个关于具体区域场景的子图,并在不需要边界框标签的情况下,生成带属性信息的场景图。实验证明了该模型在数据集上的表现优于之前的工作,并能处理更大的词汇量。
Feb, 2018
提出了一种利用场景图生成图像的模型,其中包括图形卷积来处理输入图形、预测对象的边界框和分割掩模来计算场景布局,并使用级联细化网络将布局转换为图像,训练对抗鉴别器来确保生成的图像具有逼真度。
Apr, 2018
提出了一种新颖的场景图生成模型——Graph R-CNN,其在检测图像中的对象和它们之间的关系方面既有效又高效。该模型包含一种关系提议网络(RePN),能够有效地处理图像中潜在关系的二次数量。同时,我们提出了一种注意力图卷积网络(aGCN),有效地捕捉对象和关系之间的上下文信息。最后,我们引入了一种比现有指标更全面、更实际的评估方法。我们使用现有指标和我们提出的评估方法评估场景图生成,获得了最先进的性能。
Aug, 2018
本研究提出使用场景图上下文来改善场景图的图像生成,通过引入上下文网络将图卷积神经网络生成的特征并入图像生成网络和对抗性损失,从而不仅能够生成逼真的图像,还能更好地保留非空间对象之间的关系,并定义两个评估指标,Relation Score 和 Mean Opinion Relation Score,直接评估场景图的一致性,并经过定量和定性研究证明了该模型在这一具有挑战性的任务上优于现有技术。
Jan, 2019
提出了一种名为PasteGAN的半参数方法,结合场景图和图像裁剪来生成具有所需对象和丰富交互的图像,使用Crop Refining Network和Object-Image Fuser设计算法来增强对象间的交互,并设计了Crop Selector来选择最兼容的对象进行生成。在Visual Genome和COCO-Stuff数据集上通过评估表明,该方法显著优于SOTA方法。
May, 2019
本文提出了一个用于无条件生成场景图的生成模型SceneGraphGen,通过层级循环架构直接学习带标签和有向图的概率分布,生成的场景图多样且遵循真实场景的语义模式,同时还证明了生成的图在图像合成、异常检测和场景图完整性方面的应用。
Aug, 2021
本文提出了一种通过图像-句子对学习的方法,以提取图像中本地化对象及其关系的图形表示,即场景图,其中利用了现成的对象检测器来识别和定位对象实例,并通过掩码标记预测任务预测伪标签以学习场景图。通过学习图像-句子对,我们的模型相较于使用人工注释的非定位场景图训练的最新方法获得了30%的相对增益。同时,在弱监督和全监督场景图生成方面,我们的模型也展现了出色的结果,我们还探究了用于检测场景图的开放词汇设置,并呈现了首个开放式场景图生成的结果。
Sep, 2021