迭代消息传递的场景图生成
提出了一种利用场景图生成图像的模型,其中包括图形卷积来处理输入图形、预测对象的边界框和分割掩模来计算场景布局,并使用级联细化网络将布局转换为图像,训练对抗鉴别器来确保生成的图像具有逼真度。
Apr, 2018
本文提出了基于子图连接图的场景图生成方法,并采用自下而上的聚类方法将整个场景图分解为子图,并用更少的子图和对象特征替换场景图的众多关系表示,以显著降低中间阶段的计算。采用空间加权消息传递和空间敏感关系推理模块,维护空间信息以促进关系识别,该方法在视觉关系检测和视觉基因组数据集中均优于现有最先进的方法。
Jun, 2018
本文提出了一种改进场景图生成的方法,通过显式建模整个对象实例的相互依赖关系,设计了一种简单而有效的关系嵌入模块,使我们的模型能够联合表示所有相关对象之间的连接,而不是只关注单个对象。在基本 Faster R-CNN 的基础上使用它,我们的模型在 Visual Genome 基准测试上取得了最先进的结果。通过引入全局上下文编码模块和几何布局编码模块,我们进一步提高了性能。在广泛的消融研究中,我们验证了我们的最终模型LinkNet在场景图生成方面的效果。
Nov, 2018
提出了一种高效且可解释的场景图生成器,考虑了视觉、空间和语义三种特征并使用了后期融合策略,模型在 OpenImages 可视关系检测竞赛中表现优越,得分比第二名高出 5%(相对增长率 20%),该生成器是实现基于视觉语言任务如图像字幕和视觉问答的重要基石。
Nov, 2018
本文提出了一种利用外部知识和图像重建损失的新型场景图生成算法,提取外部常识知识以改进场景图的可推广性,并通过在场景图生成网络上引入辅助图像重建路径来解决嘈杂对象注释的偏差问题,全面实验证明我们的框架可以生成更好的场景图,并在“视觉关系检测”和“视觉基因组”两个基准数据集上实现了最先进的性能。
Apr, 2019
通过学习数据中的规范图形表征,我们提出了一种新模型,以改进复杂视觉场景的图像生成,并在Visual Genome、COCO和CLEVR三个基准测试上展示了模型的改进性能。
Dec, 2019
本文提出了一个用于无条件生成场景图的生成模型SceneGraphGen,通过层级循环架构直接学习带标签和有向图的概率分布,生成的场景图多样且遵循真实场景的语义模式,同时还证明了生成的图在图像合成、异常检测和场景图完整性方面的应用。
Aug, 2021
本文提出了一种通过图像-句子对学习的方法,以提取图像中本地化对象及其关系的图形表示,即场景图,其中利用了现成的对象检测器来识别和定位对象实例,并通过掩码标记预测任务预测伪标签以学习场景图。通过学习图像-句子对,我们的模型相较于使用人工注释的非定位场景图训练的最新方法获得了30%的相对增益。同时,在弱监督和全监督场景图生成方面,我们的模型也展现了出色的结果,我们还探究了用于检测场景图的开放词汇设置,并呈现了首个开放式场景图生成的结果。
Sep, 2021
该论文提出了一种改进的方法来生成场景图,通过引入关系层次结构和常识知识。具体而言,我们提出了一个贝叶斯分类头,利用了信息丰富的层次结构,同时预测两个对象之间的超类或关系类型以及每个超类下的详细关系。我们设计了一个常识验证流程,使用大型语言模型对场景图预测系统的结果进行评估,并利用反馈改善模型性能。该系统在测试时不需要外部大型语言模型的辅助,更适用于实际应用。在Visual Genome和OpenImage V6数据集上的实验证明,利用层次关系可以大幅提高模型性能。该论文提出的贝叶斯头还可以作为一个可移植模块加入现有的场景图生成算法中,以改善它们的结果。此外,常识验证使得模型能够产生大量超出数据集注释的合理预测。
Nov, 2023
本文介绍了一项新的生成任务:联合场景图像生成。通过引入DiffuseSG模型,本文探索了生成逼真的场景图,使得图像生成具备高效和可解释性的控制能力,并展示了该模型在场景图生成以及相关应用中的优越性。
Jan, 2024