关注关系网络:将图像映射到场景图
本文提出了一种改进场景图生成的方法,通过显式建模整个对象实例的相互依赖关系,设计了一种简单而有效的关系嵌入模块,使我们的模型能够联合表示所有相关对象之间的连接,而不是只关注单个对象。在基本 Faster R-CNN 的基础上使用它,我们的模型在 Visual Genome 基准测试上取得了最先进的结果。通过引入全局上下文编码模块和几何布局编码模块,我们进一步提高了性能。在广泛的消融研究中,我们验证了我们的最终模型 LinkNet 在场景图生成方面的效果。
Nov, 2018
该论文提出了一种新颖的 transformer 模型,用于场景图生成和关系预测,利用编码器 - 解码器架构和节点和边的丰富特征嵌入,通过自我注意力和交叉注意力模拟节点之间和边与节点之间的交互,并引入适用于处理解码器中的边的新的位置嵌入。
Apr, 2020
本文为场景图生成的详细调查报告,主要讨论了场景图生成的各种技术、它们的有效性以及场景图在视觉关系理解和其他任务中的应用,同时分析了未来发展的方向。
May, 2020
通过深度神经网络和知识嵌入式路由网络,结合统计相关性和语义关系之间的知识图谱,实现了场景图的生成和推理,实验证明该方法优于现有技术,解决了因为世界关系分布不均衡导致的场景图推导的难题。
Mar, 2019
为解决场景图构建的大量人工成本,提出了一种基于图像语义关系生成的简单有效的图像到文本模型(ISRG),该模型通过将场景图任务分解为两个子任务,即图像分割任务和限制性自回归文本生成任务,极大地降低了场景图的构建成本。在 OpenPSG 数据集上,该模型获得了 31 分,相应地优于强基线 ResNet-50 和 CLIP 16 点和 5 点。
Oct, 2022
本文提出了一种基于场景图的三维场景理解方法,它将场景中的实体组织成图形式,运用基于 PointNet 和 Graph Convolutional Networks(GCN)的学习方法实现了场景图的回归,并且引入了一个新的数据集 3DSSG 来支持该方法的应用和评估。
Apr, 2020
提出了一种新颖的场景图生成模型 ——Graph R-CNN,其在检测图像中的对象和它们之间的关系方面既有效又高效。该模型包含一种关系提议网络(RePN),能够有效地处理图像中潜在关系的二次数量。同时,我们提出了一种注意力图卷积网络(aGCN),有效地捕捉对象和关系之间的上下文信息。最后,我们引入了一种比现有指标更全面、更实际的评估方法。我们使用现有指标和我们提出的评估方法评估场景图生成,获得了最先进的性能。
Aug, 2018
本文引入的关系网络(RNs)- 一种通用的神经网络架构,可用于从场景描述数据中学习对象关系,并从变分自编码器提供的场景图像的分布式深度表示中分离出错综场景描述输入的对象。
Feb, 2017
本文通过使用图神经网络测量场景图的相似度,提出了一种基于场景图相似度的图像检索方法,并使用人工注释的标题计算图片相关性测量来训练图神经网络,收集了一个数据集用于评估检索算法,并显示我们的方法比竞争方法更符合人类对图像相似性的感知。
Dec, 2020