GoG: 基于关系感知的图上图网络用于视觉对话

ACLSep, 2021

GoG: 基于关系感知的图上图网络用于视觉对话

GoG: Relation-aware Graph-over-Graph Network for Visual Dialog

Feilong Chen, Xiuyi Chen, Fandong Meng, Peng Li, Jie Zhou

TL;DR本文提出了一种新颖的关系感知图嵌入模型（GoG）用于视觉对话，该模型可以捕获对话历史中的代词和依赖关系以及问题和图像对象之间的关系，实验结果表明我们的模型在生成式和判别式的对话任务中都取得了显著的优势。

Abstract

visual dialog, which aims to hold a meaningful conversation with humans about a given image, is a challenging task that requires models to reason the complex dependencies among visual content, dialog history, and current questions. Graph neural networks are recently applied to model th

visual dialog graph neural networks relation-aware graph-over-graph network coreference resolution object relations

发现论文，激发创造

基于上下文感知的迭代图推理在视觉对话中的应用

本文提出了一种上下文感知图神经网络（Context-Aware Graph，CAG），通过自适应的前 K 个节点的信息传递机制，迭代更新每个节点（既包括視觉类、又包括历史关联类特征）的图结构，从而实现关系推理。此方法在 VisDial v0.9 和 v1.0 数据集上得到了有效验证。

Apr, 2020

GraghVQA: 基于语言引导的图神经网络用于基于图像的视觉问答

本研究提出了一种基于场景图的自然语言问答模型 GraphVQA，该模型采用语言引导的图神经网络，并使用节点间的多次信息传递来翻译和执行自然语言问题。我们探讨了 GraphVQA 框架的设计空间，并讨论了不同设计选择的权衡。在 GQA 数据集上的实验证明，GraphVQA 明显优于现有模型（88.43% 对 94.78%）。

Apr, 2021

面向视觉问答的关系感知图注意力网络

本研究提出了一种基于关系感知图形注意力网络（ReGAT）的 VQA 模型，该模型通过图形注意机制将每个图像编码为图形，再通过多类型的物体关系建模，以学习问题自适应的关系表示，并在 VQA 2.0 和 VQA-CP v2 数据集上优于现有的 VQA 方法，同时具有通用的关系编码器功能。

Mar, 2019

基于图的社交关系推理

本文提出了一种基于图形关系推理网络方法 (GR2N) 的社交关系识别方法，该方法相比现有方法能够更快，更准确地构建社交关系图，并显式地抓住不同类型社交关系之间的强逻辑约束，从而提高社交关系图的性能。

Jul, 2020

使用结构和部分观测推理视觉对话

本文提出了一种新的模型来解决复杂的视觉对话结构问题，并将其明确地形式化为具有部分观察节点和未知图结构（对话中的关系）的图形模型中的推断问题。通过期望最大化算法，我们可以在推理过程中推断出潜在的对话结构和所需的答案值，并提出了一种可微分图神经网络解决方案。实验证明，我们的模型在 VisDial 和 VisDial-Q 数据集上表现优异，并且能够推断出更好的对话推理潜在结构。

Apr, 2019

利用先验视觉关系的场景图推理用于视觉问答

使用结构化可视化表征 —— 场景图，通过可视上下文和语言因素进行关系编码，使用场景图卷积网络实现对对象属性和关系语义的联合推理来回答视觉问题，从而在 GQA 数据集上实现了 54.56％的最高准确率。

Dec, 2018

VQA-GNN：用多模态语义图推理进行视觉问答

本文介绍了 Visual Question Answering——Graph Neural Network 模型，用于解决视觉理解中的概念层次推理问题，与现有模型相比，该模型将图像级别信息和概念知识进行了统一，并在 VCR 任务中取得了优于 Trans-VL 模型的最佳结果。此外，该模型还提供了跨视觉和文本知识领域的可解释性。

May, 2022

面向视觉问答的问题驱动图融合网络

提出了 QD-GFN 方法，利用三个图注意力网络来建立图像中的语义、空间和隐含视觉关系，并引入问题信息指导三个图的聚合过程，采用目标过滤机制消除图像中与问题不相关的对象，实验结果表明 QD-GFN 优于现有最先进的 VQA 模型，新的图聚合方法和目标过滤机制对模型的性能提升起到了重要作用。

Apr, 2022

KBGN：基于知识桥接图网络的视觉 - 文本问答自适应推理

本文提出了一种新颖的知识桥梁图网络模型，该模型使用图形在细粒度上构建跨模式语义关系的桥梁，通过自适应信息选择模式检索所需的知识，从而清晰地提取视觉对话的推理线索，并通过实验结果在 VisDial v1.0 和 VisDial-Q 数据集上展示了超越现有模型的最先进成果。

Aug, 2020

GraphDialog: 将图表知识整合到端到端任务导向对话系统中

本文提出一种适用于任务导向型对话系统的模型，利用知识库和对话的依存关系图结构信息解决了如何有效地将外部知识库整合到学习框架中以及如何准确捕捉对话历史语义的挑战。此外，该模型采用多跳推理能力以及循环单元架构进行表示学习。实验结果表明，该模型在两个不同的任务导向型对话数据集上均优于现有模型。

Oct, 2020