使用场景图进行视觉关系检测：一项调查

May, 2020

使用场景图进行视觉关系检测：一项调查

Visual Relationship Detection using Scene Graphs: A Survey

Aniket Agarwal, Ayush Mangal, Vipul

TL;DR本文为场景图生成的详细调查报告，主要讨论了场景图生成的各种技术、它们的有效性以及场景图在视觉关系理解和其他任务中的应用，同时分析了未来发展的方向。

Abstract

Understanding a scene by decoding the visual relationships depicted in an image has been a long studied problem. While the recent advances in deep learning and the usage of deep neural networks have achieved near human accuracy on many tasks, there still exists a pretty big gap between

scene graph visual relationships deep learning image understanding survey

发现论文，激发创造

场景图的全面调查：生成与应用

本文对当前场景图研究进行了全面的调查，总结了场景图的定义、生成方法、应用及现有数据集，并对未来发展提出了一些见解。

Mar, 2021

利用先验视觉关系的场景图推理用于视觉问答

使用结构化可视化表征 —— 场景图，通过可视上下文和语言因素进行关系编码，使用场景图卷积网络实现对对象属性和关系语义的联合推理来回答视觉问题，从而在 GQA 数据集上实现了 54.56％的最高准确率。

Dec, 2018

关于支持关系和语义场景图

该论文提出了一种新颖的方法来推断场景中的支撑关系和构建语义场景图，以增强场景理解，并构建了一种描述场景内所有上下文关系的语义场景图。

Sep, 2016

关注关系网络：将图像映射到场景图

本研究提出了一种新颖的基于注意力机制的关系网络，其包含两个关键模块和一个目标检测主干以实现场景图自动生成，并在 Visual Genome 数据集上进行了实验验证其有效性和优越性。

Nov, 2018

理解场景图在视觉问答中的作用

本文通过实验探讨使用场景图（Scene Graphs）解决视觉问答（Visual Question Answering）任务。作者采用图像 + 问题架构研究场景图的各种生成技术，建议一套训练课程以利用人类注释和自动生成的场景图，并通过构建后期融合结构来学习多个图像表示。这份研究提供了使用场景图解决 VQA 的多方面研究，是其类型中的首次探索。

Jan, 2021

从 3D 室内重建学习 3D 语义场景图

本文提出了一种基于场景图的三维场景理解方法，它将场景中的实体组织成图形式，运用基于 PointNet 和 Graph Convolutional Networks（GCN）的学习方法实现了场景图的回归，并且引入了一个新的数据集 3DSSG 来支持该方法的应用和评估。

Apr, 2020

LinkNet：场景图的关系嵌入

本文提出了一种改进场景图生成的方法，通过显式建模整个对象实例的相互依赖关系，设计了一种简单而有效的关系嵌入模块，使我们的模型能够联合表示所有相关对象之间的连接，而不是只关注单个对象。在基本 Faster R-CNN 的基础上使用它，我们的模型在 Visual Genome 基准测试上取得了最先进的结果。通过引入全局上下文编码模块和几何布局编码模块，我们进一步提高了性能。在广泛的消融研究中，我们验证了我们的最终模型 LinkNet 在场景图生成方面的效果。

Nov, 2018

图像语义关系生成

为解决场景图构建的大量人工成本，提出了一种基于图像语义关系生成的简单有效的图像到文本模型（ISRG），该模型通过将场景图任务分解为两个子任务，即图像分割任务和限制性自回归文本生成任务，极大地降低了场景图的构建成本。在 OpenPSG 数据集上，该模型获得了 31 分，相应地优于强基线 ResNet-50 和 CLIP 16 点和 5 点。

Oct, 2022

使用场景描述的语义建模改进视觉关系检测

通过将语义模型与视觉统计模型相结合，并应用多种先进的链接预测方法，本研究证明链接预测方法可以提高对于视觉关系检测的结果，并在 Stanford Visual Relationship 数据集上取得了优于当今最先进方法的性能。

Sep, 2018

使用有限标签进行场景图预测

本文提出了一种半监督方法，通过很少的带标签的样本分配概率关系标签到大量未标记的图像，生成足够的训练数据来训练任何现有的最先进的场景图模型，该方法在场景图预测方面优于所有基准方法，此外，我们定义了一种关系的复杂度指标，为条件提供指示符。

Apr, 2019