关注关系网络：将图像映射到场景图

CVPRNov, 2018

关注关系网络：将图像映射到场景图

Attentive Relational Networks for Mapping Images to Scene Graphs

Mengshi Qi, Weijian Li, Zhengyuan Yang, Yunhong Wang, Jiebo Luo

TL;DR本研究提出了一种新颖的基于注意力机制的关系网络，其包含两个关键模块和一个目标检测主干以实现场景图自动生成，并在 Visual Genome 数据集上进行了实验验证其有效性和优越性。

Abstract

scene graph generation refers to the task of automatically mapping an image into a semantic structural graph, which requires correctly labeling each extracted object and their interaction relationships. Despite the recent success in →

scene graph generation attentive relational network object detection semantic transformation module graph self-attention module

发现论文，激发创造

LinkNet：场景图的关系嵌入

本文提出了一种改进场景图生成的方法，通过显式建模整个对象实例的相互依赖关系，设计了一种简单而有效的关系嵌入模块，使我们的模型能够联合表示所有相关对象之间的连接，而不是只关注单个对象。在基本 Faster R-CNN 的基础上使用它，我们的模型在 Visual Genome 基准测试上取得了最先进的结果。通过引入全局上下文编码模块和几何布局编码模块，我们进一步提高了性能。在广泛的消融研究中，我们验证了我们的最终模型 LinkNet 在场景图生成方面的效果。

Nov, 2018

关系变换网络

该论文提出了一种新颖的 transformer 模型，用于场景图生成和关系预测，利用编码器 - 解码器架构和节点和边的丰富特征嵌入，通过自我注意力和交叉注意力模拟节点之间和边与节点之间的交互，并引入适用于处理解码器中的边的新的位置嵌入。

Apr, 2020

使用场景图进行视觉关系检测：一项调查

本文为场景图生成的详细调查报告，主要讨论了场景图生成的各种技术、它们的有效性以及场景图在视觉关系理解和其他任务中的应用，同时分析了未来发展的方向。

May, 2020

场景图生成的知识嵌入式路由网络

通过深度神经网络和知识嵌入式路由网络，结合统计相关性和语义关系之间的知识图谱，实现了场景图的生成和推理，实验证明该方法优于现有技术，解决了因为世界关系分布不均衡导致的场景图推导的难题。

Mar, 2019

关于支持关系和语义场景图

该论文提出了一种新颖的方法来推断场景中的支撑关系和构建语义场景图，以增强场景理解，并构建了一种描述场景内所有上下文关系的语义场景图。

Sep, 2016

图像语义关系生成

为解决场景图构建的大量人工成本，提出了一种基于图像语义关系生成的简单有效的图像到文本模型（ISRG），该模型通过将场景图任务分解为两个子任务，即图像分割任务和限制性自回归文本生成任务，极大地降低了场景图的构建成本。在 OpenPSG 数据集上，该模型获得了 31 分，相应地优于强基线 ResNet-50 和 CLIP 16 点和 5 点。

Oct, 2022

从 3D 室内重建学习 3D 语义场景图

本文提出了一种基于场景图的三维场景理解方法，它将场景中的实体组织成图形式，运用基于 PointNet 和 Graph Convolutional Networks（GCN）的学习方法实现了场景图的回归，并且引入了一个新的数据集 3DSSG 来支持该方法的应用和评估。

Apr, 2020

图像场景图生成的图卷积神经网络

提出了一种新颖的场景图生成模型 ——Graph R-CNN，其在检测图像中的对象和它们之间的关系方面既有效又高效。该模型包含一种关系提议网络（RePN），能够有效地处理图像中潜在关系的二次数量。同时，我们提出了一种注意力图卷积网络（aGCN），有效地捕捉对象和关系之间的上下文信息。最后，我们引入了一种比现有指标更全面、更实际的评估方法。我们使用现有指标和我们提出的评估方法评估场景图生成，获得了最先进的性能。

Aug, 2018

从纠缠的场景表示中发现对象及其关系

本文引入的关系网络（RNs）- 一种通用的神经网络架构，可用于从场景描述数据中学习对象关系，并从变分自编码器提供的场景图像的分布式深度表示中分离出错综场景描述输入的对象。

Feb, 2017

通过学习场景图之间的相似度进行图像检索

本文通过使用图神经网络测量场景图的相似度，提出了一种基于场景图相似度的图像检索方法，并使用人工注释的标题计算图片相关性测量来训练图神经网络，收集了一个数据集用于评估检索算法，并显示我们的方法比竞争方法更符合人类对图像相似性的感知。

Dec, 2020