通过视听信息传递将自然图像场景图映射到实体化

Nov, 2022

通过视听信息传递将自然图像场景图映射到实体化

Grounding Scene Graphs on Natural Images via Visio-Lingual Message Passing

Aditay Tripathi, Anand Mishra, Anirban Chakraborty

TL;DR该研究提出了一种基于图神经网络的方法，通过联合描述场景中的对象，并利用上下文信息来提高对象定位性能。

Abstract

This paper presents a framework for jointly grounding objects that follow certain semantic relationship constraints given in a scene graph. A typical natural scene contains several objects, often exhibiting visual relationships of varied complexities between them. These inter-object re

grounding scene graphs object localization graph neural network contextual information

发现论文，激发创造

学习跨模态上下文图进行视觉定位

本文提出了一种基于语言引导图表示的方法来捕获全局上下文和关系，以及跨模态图匹配策略来解决多短语视觉定位任务，实验证明我们的方法优于现有技术，并提供了开源代码。

Nov, 2019

迭代消息传递的场景图生成

研究使用视觉图像中的基于场景图谱的结构化表示，通过端到端模型建模图像中对象之间的关系，通过消息传递技术可以更好预测对象及其关系，实验表明该模型显著优于以前的方法。

Jan, 2017

基于视觉语言辅助的伪标签方法实现弱监督的三维场景图生成

通过视觉语言辅助伪标记，我们提出了 3D-VLAP，一种弱监督的三维场景图生成方法，能够对三维点云场景进行语义对齐并生成场景图，从而在减轻数据标注压力的同时实现与完全监督方法可比较的效果。

Apr, 2024

GraghVQA: 基于语言引导的图神经网络用于基于图像的视觉问答

本研究提出了一种基于场景图的自然语言问答模型 GraphVQA，该模型采用语言引导的图神经网络，并使用节点间的多次信息传递来翻译和执行自然语言问题。我们探讨了 GraphVQA 框架的设计空间，并讨论了不同设计选择的权衡。在 GQA 数据集上的实验证明，GraphVQA 明显优于现有模型（88.43% 对 94.78%）。

Apr, 2021

基于分割的场景图生成

该论文提出了第一个像素级分割 - 基于场景图生成的框架，并通过辅助数据集的转移学习和多任务学习解决了目标场景图数据集中缺乏分割标注的问题，其中引入了基于语义相似性权重的线性组合来表达目标对象的分割掩模，并引入了新颖的高斯注意机制实现像素级关系预测，并且该框架支持端到端可训练。

Apr, 2021

SceneGraphNet：神经信息传递用于三维室内场景增强

本文提出了一种神经传递信息的方法来与其环境相匹配的新物体进行增强，该方法能够预测适合位置的物体类型的概率分布，并在密集图中传递学习消息来处理物体相之间的空间和结构关系，通过注意机制加权消息，在 SUNCG 数据集中比其他方法更准确地预测场景中缺失的物体，并展示了基于此方法的其他应用，包括基于上下文的 3D 对象识别和迭代场景生成。

Jul, 2019

使用场景图进行增量式目标定位

本文介绍了一种基于场景图和语言结构的递增式 grounding 模型 (IGSG)，通过使用场景图中的对象之间的关系，构造问答对话方式以消除人类命令的歧义和错误，该模型在现实场景中表现出可接受的性能，可以有效地通过回问式问答消除歧义的问题。

Jan, 2022

基于边双场景图和消息传递神经网络的语义场景图生成

通过引入边缘双场景图生成（EdgeSGG）和双消息传递神经网络（DualMPNN），本论文提出了一种建模多对象关系的新方法，可以准确地预测对象之间的详细关系，并在各个场景图生成子任务中实现了显著的性能提升，同时有效缓解了长尾分布问题。

Nov, 2023

无监督视觉 - 语言解析：通过依赖关系无缝桥接视觉场景图与语言结构

本文提出了一种对视觉场景图和语言依赖树进行联合建模的无监督学习任务，并构造了一个新的数据集 VLParse，提出了基于对比学习的 VLGAE 框架用于 VL 短语理解和语言语法归纳。实验结果表明了视觉信息和语言依赖关系对于 VL 结构建模的有效性。

Mar, 2022

利用神经场景图生成器学习视觉关系先验用于图像文本匹配和图像字幕生成

通过结合神经场景图生成器和最先进的模型，我们的实验表明用于促进语言到视觉关系的关系特征能够显著改进标准的 Flickr30K 和 MSCOCO 基准测试，在端到端的视觉和语言应用中捕获视觉关系。

Sep, 2019