使用场景图进行视觉关系检测:一项调查
使用结构化可视化表征 —— 场景图,通过可视上下文和语言因素进行关系编码,使用场景图卷积网络实现对对象属性和关系语义的联合推理来回答视觉问题,从而在 GQA 数据集上实现了 54.56%的最高准确率。
Dec, 2018
本研究提出了一种新颖的基于注意力机制的关系网络,其包含两个关键模块和一个目标检测主干以实现场景图自动生成,并在 Visual Genome 数据集上进行了实验验证其有效性和优越性。
Nov, 2018
本文通过实验探讨使用场景图(Scene Graphs)解决视觉问答(Visual Question Answering)任务。作者采用图像 + 问题架构研究场景图的各种生成技术,建议一套训练课程以利用人类注释和自动生成的场景图,并通过构建后期融合结构来学习多个图像表示。这份研究提供了使用场景图解决 VQA 的多方面研究,是其类型中的首次探索。
Jan, 2021
本文提出了一种基于场景图的三维场景理解方法,它将场景中的实体组织成图形式,运用基于 PointNet 和 Graph Convolutional Networks(GCN)的学习方法实现了场景图的回归,并且引入了一个新的数据集 3DSSG 来支持该方法的应用和评估。
Apr, 2020
本文提出了一种改进场景图生成的方法,通过显式建模整个对象实例的相互依赖关系,设计了一种简单而有效的关系嵌入模块,使我们的模型能够联合表示所有相关对象之间的连接,而不是只关注单个对象。在基本 Faster R-CNN 的基础上使用它,我们的模型在 Visual Genome 基准测试上取得了最先进的结果。通过引入全局上下文编码模块和几何布局编码模块,我们进一步提高了性能。在广泛的消融研究中,我们验证了我们的最终模型 LinkNet 在场景图生成方面的效果。
Nov, 2018
为解决场景图构建的大量人工成本,提出了一种基于图像语义关系生成的简单有效的图像到文本模型(ISRG),该模型通过将场景图任务分解为两个子任务,即图像分割任务和限制性自回归文本生成任务,极大地降低了场景图的构建成本。在 OpenPSG 数据集上,该模型获得了 31 分,相应地优于强基线 ResNet-50 和 CLIP 16 点和 5 点。
Oct, 2022
通过将语义模型与视觉统计模型相结合,并应用多种先进的链接预测方法,本研究证明链接预测方法可以提高对于视觉关系检测的结果,并在 Stanford Visual Relationship 数据集上取得了优于当今最先进方法的性能。
Sep, 2018
本文提出了一种半监督方法,通过很少的带标签的样本分配概率关系标签到大量未标记的图像,生成足够的训练数据来训练任何现有的最先进的场景图模型,该方法在场景图预测方面优于所有基准方法,此外,我们定义了一种关系的复杂度指标,为条件提供指示符。
Apr, 2019