多模态问答的多模态图形转换器

Apr, 2023

Multimodal Graph Transformer for Multimodal Question Answering

Xuehai He, Xin Eric Wang

TL;DR本文提出一种多模态图变换器，它利用了文本和视觉数据的多模态信息，并通过结构化学习和图神经网络的方法对自注意力进行约束以提高推理能力，适用于需要跨多个模态执行推理的问题回答任务。我们通过在 GQA，VQAv2 和 MultiModalQA 数据集上进行实验来验证这种方法的有效性，表明多模态图变换器优于 Transformer 模型基线。

Abstract

Despite the success of transformer models in vision and language tasks, they often learn knowledge from enormous data implicitly and cannot utilize structured input data directly. On the other hand, structured learning<

transformer models structured learning graph neural networks multimodal information question answering

发现论文，激发创造

多模态图神经网络用于视觉场景联合推理

利用多模式图神经网络（MM-GNN）作为一种视觉问答（VQA）方法，通过将图像表示为由三个子图组成的图形，利用场景文本中的各种信息来提高节点特征，从而显著提高需要阅读场景文本的两项 VQA 任务的性能。

Mar, 2020

VQA-GNN：用多模态语义图推理进行视觉问答

本文介绍了 Visual Question Answering——Graph Neural Network 模型，用于解决视觉理解中的概念层次推理问题，与现有模型相比，该模型将图像级别信息和概念知识进行了统一，并在 VCR 任务中取得了优于 Trans-VL 模型的最佳结果。此外，该模型还提供了跨视觉和文本知识领域的可解释性。

May, 2022

GraphextQA：评估图增强大语言模型的基准

这篇文章介绍了将图谱模态集成到大型语言模型中的挑战，并提出了一个用于评估和发展图谱 - 语言模型的问答数据集 GraphextQA，同时介绍了一种名为 CrossGNN 的基准模型。通过实验证明了使用图谱的有用性和该任务的困难性。

Oct, 2023

关系感知语言 - 图变换器用于问答

提出了一种可以利用 KG 丰富的关系信息和 LM 之间有限的交互方式，联合处理自然语言和图表信息的方法，并通过 CommonsenseQA 和 OpenBookQA 等数据集的验证，在所有数据集上都取得了最先进的性能。

Dec, 2022

多模态大型语言模型中的图推理图渲染

本文探讨了在图推理任务中将视觉信息与文本信息相结合的可行性，并使用基准测试 GITQA 以及多模态 LLM 模型进行了实验证明了在图推理任务中使用文本和视觉信息相结合要好于单一模态。

Feb, 2024

基于结构导向的多模态预训练变压器用于知识图谱推理

我们提出了图结构引导的多模态预训练变换器（SGMPT）用于知识图谱推理，它采用图结构编码器来进行结构特征编码，并采用加权求和和对齐约束两种不同策略的结构引导融合模块，将结构信息注入文本和视觉特征，实验证明了 SGMPT 在多模态 KGR 方面的效果优于现有的最先进模型。

Jul, 2023

面向 TextVQA 的空间感知多模态 Transformer

本研究提出了基于 TextVQA 任务的一种新型空间感知自注意力模型，可以有效地推理图像中的文本内容，改进了 TextVQA 和 ST-VQA 两个关键指标，同时为视觉绑定的研究方向提供了新的思路。

Jul, 2020

使用指针增强多模态 Transformer 进行迭代式答案预测的 TextVQA

本研究提出了一种基于多模态 Transformer 架构的新型 TextVQA 模型，采用自我注意力机制进行不同模态的融合，并通过动态指针网络进行迭代式答案解码，相比于现有方法大幅度提高了 TextVQA 任务的性能。

Nov, 2019

基于图注意力网络的多模态预训练在文档理解中的应用

本文提出了一种基于多模态图注意力机制的图文结合的自动文档分析模型 (GraphDoc)，该模型利用文本、布局和图像信息进行多模态预训练，并通过门控融合层对每个节点进行多模态特征融合，通过图注意层建模每个节点之间的上下文关系，学习了仅使用 320k 未标注文档的通用表示，在公共数据集上获得了最先进的性能。

Mar, 2022

多模态上下文图谱理解和自监督开放式理解的教材问题回答

该研究提出了一种新算法，用于解决复杂的教材题目答案（TQA）任务，该算法主要围绕多模态上下文中的知识特征提取以及自我监督开放式学习过程展开，并且实验证明其优于目前先进的方法。

Nov, 2018