VD-GR: 提升视觉对话的层叠时空多模式图

Oct, 2023

VD-GR: 提升视觉对话的层叠时空多模式图

$\mathbb{VD}$-$\mathbb{GR}$: Boosting $\mathbb{V}$isual $\mathbb{D}$ialog with Cascaded Spatial-Temporal Multi-Modal $\mathbb{GR}$aphs

PDF

Adnen Abdessaied, Lei Shi, Andreas Bulling

TL;DR我们提出了一种新颖的可视对话模型 V D-G R，它将预训练语言模型与图神经网络相结合，通过空间 - 时间多模式 GNN 和 BERT 层之间的交替集成机制，实现图像、问题和对话历史三个模态的特征处理，并在实验证明 VD-GR 在四个数据集上都达到了最新的最优结果。

Abstract

We propose $\mathbb{VD}$-$\mathbb{GR}$ - a novel visual dialog model that combines pre-trained language models (LMs) with graph neural networks

visual dialog model pre-trained language models graph neural networks multi-modal gnns bert layers

发现论文，激发创造

多模态图神经网络用于视觉场景联合推理

利用多模式图神经网络（MM-GNN）作为一种视觉问答（VQA）方法，通过将图像表示为由三个子图组成的图形，利用场景文本中的各种信息来提高节点特征，从而显著提高需要阅读场景文本的两项 VQA 任务的性能。

Mar, 2020

基于关系图学习的视频描述生成

本研究设计了一种新颖的关系图学习框架，包括一种语言细化的场景图表示，探索细粒度的视觉概念，并解决了对象幻觉问题。实验结果表明，本方法可以生成更精细和准确的描述。

Dec, 2021

多模态增量变压器结合视觉定位生成视觉对话

该研究提出了一种多模态增量变形器（MITVG）的视觉指向方法，该方法可以显式地定位与文本实体相关的图像对象，从而帮助模型排除不需要关注的视觉内容，进而在多轮对话历史记录和视觉场景的基础上生成一致且连贯的响应。该模型在 VisDial v0.9 和 v1.0 数据集上实验结果证明了其优越性能。

Sep, 2021

用于端到端视频对话系统的多模态 Transformer 网络

本研究提出了一种使用多模态转换网络（MTN）来编码和整合不同模态信息的视频对话系统。在对话生成过程中，我们提出了一个训练程序来模拟标记级解码，从而提高了生成响应的质量。我们在 DSTC7 上获得了最优秀的表现，并且我们的模型具有很好的泛化性能。

Jul, 2019

DualVGR: 一个用于视频问答的双重视觉图推理单元

提出了一个 Dual-Visual Graph Reasoning Unit (DualVGR) 网络，在视频问答中实现可解释的查询惩罚模块同时捕捉外观和运动特征之间的关系，在 MSVD-QA 基准数据集上取得了最佳性能.

Jul, 2021

KBGN：基于知识桥接图网络的视觉 - 文本问答自适应推理

本文提出了一种新颖的知识桥梁图网络模型，该模型使用图形在细粒度上构建跨模式语义关系的桥梁，通过自适应信息选择模式检索所需的知识，从而清晰地提取视觉对话的推理线索，并通过实验结果在 VisDial v1.0 和 VisDial-Q 数据集上展示了超越现有模型的最先进成果。

Aug, 2020

VQA-GNN：用多模态语义图推理进行视觉问答

本文介绍了 Visual Question Answering——Graph Neural Network 模型，用于解决视觉理解中的概念层次推理问题，与现有模型相比，该模型将图像级别信息和概念知识进行了统一，并在 VCR 任务中取得了优于 Trans-VL 模型的最佳结果。此外，该模型还提供了跨视觉和文本知识领域的可解释性。

May, 2022

DualVD：一种用于视觉对话中深度视觉理解的自适应双编码模型

该研究提出了一种新的模型来从视觉和语义两个角度描述图像，在多角度图像特征的基础上提出了特征选择框架，逐层适应性地捕捉问题相关信息，并在基准视觉对话数据集上取得了最先进的结果。更重要的是，通过可视化门控值，我们能够确定视觉和语义哪个模式在回答当前问题中发挥更重要的作用，为我们理解人类认知在视觉对话中的作用提供了见解。

Nov, 2019

从视觉丰富文档中提取多模态信息的图卷积

本文提出了一种基于图卷积的模型来将文本和视觉信息相结合以实现对视觉丰富的文档中实体抽取的方法，并通过实验证明了所提出的模型在两个真实数据集上的性能远优于 BiLSTM-CRF 模型。

Mar, 2019

双语义感知循环全局自适应网络：用于视觉和语言导航

该论文提出了一种双语义感知递归全局自适应网络（DSRG），包括指导语言模块和外貌 - 语义视觉模块，用于视觉和语言语义学习，以及全球自适应聚合模块和递归记忆融合模块，用于对全景观测进行显式内存融合。虽然在 R2R 和 REVERIE 数据集上进行了广泛的实验，并证明该方法的实际性和有效性高于现有方法。

May, 2023