多模态图神经网络用于视觉场景联合推理

CVPRMar, 2020

多模态图神经网络用于视觉场景联合推理

Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text

Difei Gao, Ke Li, Ruiping Wang, Shiguang Shan, Xilin Chen

TL;DR利用多模式图神经网络（MM-GNN）作为一种视觉问答（VQA）方法，通过将图像表示为由三个子图组成的图形，利用场景文本中的各种信息来提高节点特征，从而显著提高需要阅读场景文本的两项 VQA 任务的性能。

Abstract

Answering questions that require reading texts in an image is challenging for current models. One key difficulty of this task is that rare, polysemous, and ambiguous words frequently appear in images, e.g., names of places, products, and sports teams. To overcome this difficulty, only resorting to pre-trained word embedding models is far from enough. A desir

vqa multi-modal graph neural network scene text question answering

发现论文，激发创造

VQA-GNN：用多模态语义图推理进行视觉问答

本文介绍了 Visual Question Answering——Graph Neural Network 模型，用于解决视觉理解中的概念层次推理问题，与现有模型相比，该模型将图像级别信息和概念知识进行了统一，并在 VCR 任务中取得了优于 Trans-VL 模型的最佳结果。此外，该模型还提供了跨视觉和文本知识领域的可解释性。

May, 2022

多模态问答的多模态图形转换器

本文提出一种多模态图变换器，它利用了文本和视觉数据的多模态信息，并通过结构化学习和图神经网络的方法对自注意力进行约束以提高推理能力，适用于需要跨多个模态执行推理的问题回答任务。我们通过在 GQA，VQAv2 和 MultiModalQA 数据集上进行实验来验证这种方法的有效性，表明多模态图变换器优于 Transformer 模型基线。

Apr, 2023

基于场景文本的细粒度图像分类与检索的多模态推理图

本文采用图卷积网络结合场景文本实例和显著图像区域进行多模态推理，在 Con-Text 和 Drink Bottle 数据集中，在细粒度图像分类和图像检索任务中显著优于之前的最新技术。

Sep, 2020

GraghVQA: 基于语言引导的图神经网络用于基于图像的视觉问答

本研究提出了一种基于场景图的自然语言问答模型 GraphVQA，该模型采用语言引导的图神经网络，并使用节点间的多次信息传递来翻译和执行自然语言问题。我们探讨了 GraphVQA 框架的设计空间，并讨论了不同设计选择的权衡。在 GQA 数据集上的实验证明，GraphVQA 明显优于现有模型（88.43% 对 94.78%）。

Apr, 2021

多模态知识图谱下的多模态推理

提出了一种利用多模态知识图 (MMKGs) 进行多模态推理的方法 (MR-MKG)，通过利用多模态知识图 (MMKGs) 跨模态地学习丰富的语义知识，显著提高了大型语言模型 (LLMs) 在多模态推理中的能力。通过在仅使用 LLM 参数的 2.25% 进行训练，MR-MKG 在多模态问答和多模态类比推理任务上取得了优越的性能，胜过了之前的最新模型。

Jun, 2024

多模态大型语言模型中的图推理图渲染

本文探讨了在图推理任务中将视觉信息与文本信息相结合的可行性，并使用基准测试 GITQA 以及多模态 LLM 模型进行了实验证明了在图推理任务中使用文本和视觉信息相结合要好于单一模态。

Feb, 2024

Mucko: 基于事实的视觉问答的多层交叉模态知识推理

本文提出了一种多模态异构图神经网络来解决基于事实的视觉问答问题，该模型通过逐层的图卷积网络对问题相关证据进行迭代式推理，并在多种数据集上获得了最新的最佳成绩。

Jun, 2020

基于跨模态知识推理的基于知识的视觉问答

本文提出了基于多个知识图谱的知识的视觉问答模型，通过串联的 GRUC 模块，对不同模态的图像信息进行并行推理，最终利用图神经网络获得全局最优解，在三个流行基准数据集上获得新的 state-of-the-art 表现结果。

Aug, 2020

多模态图学习的生成任务

多模态图学习 (MMGL) 是一个通用、系统化的框架，用于捕捉具有关系结构的多模态邻居的信息并且在预训练的语言模型中增强其文本生成能力。

Oct, 2023

基于大型语言模型的知识导向视觉问答中的模态感知集成

基于知识的视觉问答（KVQA）对于利用外部知识，如知识图谱（KGs）来回答视觉问题进行了广泛研究。本文提出了一种新颖的 LLMs 模态感知集成方法（MAIL），用于 KVQA，它巧妙地利用多模态知识进行图像理解和知识推理，并在两个基准数据集上的实验证明了 MAIL 的卓越性能。

Feb, 2024