基于知识的多模态 VQA 答案验证

AAAIMar, 2021

Multi-Modal Answer Validation for Knowledge-Based VQA

Jialin Wu, Jiasen Lu, Ashish Sabharwal, Roozbeh Mottaghi

TL;DR本文提出一种名为 MAVEx 的多模态回答验证方法，采用了图像、文本和常识知识库进行知识检索，通过学习从杂乱无序的知识源中提取相关知识、选择不同候选答案的合适知识源以及以此验证合适答案的方法，从而在知识驱动的视觉问答中取得了最好的实验效果。

Abstract

The problem of knowledge-based visual question answering involves answering questions that require external knowledge in addition to the content of the image. Such knowledge typically comes in various forms, incl

visual question answering external knowledge mavex multi-modal setting state-of-the-art results

发现论文，激发创造

思考与观察的结合用于基于外部知识的视觉问答

本文提出一种包含多模态编码器、文本编码器和答案解码器的新型框架，将跨模态空间约束到自然语言空间中，使得视觉特征直接保留在其中，并且从自然语言空间中获得更多的类型知识，实验证明其在多数情况下表现优异。

May, 2023

MuKEA: 基于多模态知识提取和累积的基于知识的视觉问答

本研究提出了一种用于视觉问答的多模态知识表示方法 (MuKEA)，通过明确的三元组来关联视觉对象和事实答案，从而构建视觉相关和可解释的多模态知识，该方法可以有效提高对知识的需求的数据集上的表现。

Mar, 2022

精确赋能，过度分散：动态注入语言模型中的视觉问答知识

通过提供来自知识图谱中提取的相关外部知识，我们通过增强问题并实现可变数量的三元组，为知识增强的视觉问答模型带来了平均 4.75％的准确匹配得分提升，并展示了其在推理能力和泛化能力方面的优势。

Jun, 2024

预训练多模态密集检索器用于视觉问答中的外部知识

本文研究了外部知识可视化问题回答的一类任务，提出了一种自动数据生成流程以预训练用于 OK-VQA 任务的通道检索模型，该方法相较于当前最先进的不对称体系结构提供了 26.9％的 Precision@5 改进，并且在零 - shot 检索方案中表现出良好的能力。

Jun, 2023

基于跨模态知识推理的基于知识的视觉问答

本文提出了基于多个知识图谱的知识的视觉问答模型，通过串联的 GRUC 模块，对不同模态的图像信息进行并行推理，最终利用图神经网络获得全局最优解，在三个流行基准数据集上获得新的 state-of-the-art 表现结果。

Aug, 2020

Mucko: 基于事实的视觉问答的多层交叉模态知识推理

本文提出了一种多模态异构图神经网络来解决基于事实的视觉问答问题，该模型通过逐层的图卷积网络对问题相关证据进行迭代式推理，并在多种数据集上获得了最新的最佳成绩。

Jun, 2020

OK-VQA：需要外部知识的视觉问答基准

本文提出了名为 OK-VQA 的基于知识的视觉问答基准，要求使用外部知识资源来回答问题，该任务是多样的、困难的和大型的，与以前的基于知识的 VQA 数据集相比具有更高的难度。

May, 2019

基于不确定性的视觉问答：估计图像与知识库间的语义不一致性

本研究提出了一种基于语义不一致度量的新型外部知识同化方法，应用到知识型视觉问答中，旨在减少添加无关信息对问答的干扰并融合含蓄和显式知识，评估结果表明该方法具有最先进性能。

Jul, 2022

利用动态记忆网络结合外部知识回答开放式视觉问题

本文提出了一种基于动态记忆网络和外部知识库的 VQA 算法，通过对外部知识的检索和动态记忆网络对知识和图像的关注与推理，有效地回答包括开放领域问题在内的更复杂问题，并在视觉问答任务中取得了最好的表现。

Dec, 2017

利用问题类型先验知识的多重交互学习，限制视觉问答中的答案搜索空间

这篇论文提出了一种新的 VQA 模型，利用问题类型先验信息，通过利用不同联合模态方法在回答不同类型的问题时的行为之间的多重交互来优化 VQA，实验表明该方法表现最佳。

Sep, 2020