利用先验视觉关系的场景图推理用于视觉问答

Dec, 2018

利用先验视觉关系的场景图推理用于视觉问答

Scene Graph Reasoning with Prior Visual Relationship for Visual Question Answering

Zhuoqian Yang, Zengchang Qin, Jing Yu, Yue Hu

TL;DR使用结构化可视化表征 —— 场景图，通过可视上下文和语言因素进行关系编码，使用场景图卷积网络实现对对象属性和关系语义的联合推理来回答视觉问题，从而在 GQA 数据集上实现了 54.56％的最高准确率。

Abstract

One of the key issues of visual question answering (VQA) is to reason with semantic clues in the visual content under the guidance of the question, how to model relational semantics still remains as a great chall

visual question answering semantic clues scene graph visual semantics scene graph convolutional network

发现论文，激发创造

视觉问答中的场景图推理

我们提出了一种基于场景图和强化学习的方法来解决视觉问答任务，实验结果表明该方法在 GQA 数据集上已达到接近人类水平的效果。

Jul, 2020

理解场景图在视觉问答中的作用

本文通过实验探讨使用场景图（Scene Graphs）解决视觉问答（Visual Question Answering）任务。作者采用图像 + 问题架构研究场景图的各种生成技术，建议一套训练课程以利用人类注释和自动生成的场景图，并通过构建后期融合结构来学习多个图像表示。这份研究提供了使用场景图解决 VQA 的多方面研究，是其类型中的首次探索。

Jan, 2021

利用场景图进行视觉问答的实证研究

本文提出了一种使用场景图和图网络进行视觉问答的方法，具有比当前最先进的视觉问答算法更清晰的架构，同时可以解释推理过程，展示了可解释的视觉问答的潜力。

Jul, 2019

VQA-GNN：用多模态语义图推理进行视觉问答

本文介绍了 Visual Question Answering——Graph Neural Network 模型，用于解决视觉理解中的概念层次推理问题，与现有模型相比，该模型将图像级别信息和概念知识进行了统一，并在 VCR 任务中取得了优于 Trans-VL 模型的最佳结果。此外，该模型还提供了跨视觉和文本知识领域的可解释性。

May, 2022

GraghVQA: 基于语言引导的图神经网络用于基于图像的视觉问答

本研究提出了一种基于场景图的自然语言问答模型 GraphVQA，该模型采用语言引导的图神经网络，并使用节点间的多次信息传递来翻译和执行自然语言问题。我们探讨了 GraphVQA 框架的设计空间，并讨论了不同设计选择的权衡。在 GQA 数据集上的实验证明，GraphVQA 明显优于现有模型（88.43% 对 94.78%）。

Apr, 2021

使用场景图进行视觉关系检测：一项调查

本文为场景图生成的详细调查报告，主要讨论了场景图生成的各种技术、它们的有效性以及场景图在视觉关系理解和其他任务中的应用，同时分析了未来发展的方向。

May, 2020

图形化结构表示用于视觉问题回答

本文提出通过建立基于场景信号和问题信息的图结构，应用深度神经网络分析问题的方法来提升视觉问答（VQA）的性能，相比于基于 CNN/LSTM 的 VQA 方法，本方法获得了显著的改善，其准确性从 71.2％提高到 74.4％，在不同的 “平衡” 场景中的准确性则提高了 4.4％。

Sep, 2016

神经符号视觉推理：将 “视觉” 与 “推理” 分离

本文提出一个框架来单独评估视觉问答（VQA）中的推理方面，同时引入一种新颖的自上而下校准技术，以使模型即使具有不完美的感知也能回答推理问题，通过在具有挑战性的 GQA 数据集上进行深入的分离比较，可以了解到众所周知的 VQA 模型参与的见解以及任务。

Jun, 2020

面向视觉问答的关系感知图注意力网络

本研究提出了一种基于关系感知图形注意力网络（ReGAT）的 VQA 模型，该模型通过图形注意机制将每个图像编码为图形，再通过多类型的物体关系建模，以学习问题自适应的关系表示，并在 VQA 2.0 和 VQA-CP v2 数据集上优于现有的 VQA 方法，同时具有通用的关系编码器功能。

Mar, 2019

SelfGraphVQA：基于自监督图神经网络的基于场景的问题回答

通过使用预训练场景图生成器从图像中提取场景图，并应用语义保持增强和自监督技术，我们引入了 SelfGraphVQA 框架，改进了图表示在视觉问答任务中的利用，从而避免昂贵和潜在有偏的注释数据，并通过图像增强创建提取图的多个视图，通过优化它们表示中的信息内容来学习联合嵌入。我们实验并证明了提取的场景图对于视觉问答非常有效，并且通过强调视觉信息的重要性来提升整体性能，为依赖场景图进行复杂推理问题的视觉问答任务提供了更实用的解决方案。

Oct, 2023