MuKEA: 基于多模态知识提取和累积的基于知识的视觉问答

CVPRMar, 2022

MuKEA: 基于多模态知识提取和累积的基于知识的视觉问答

MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering

Yang Ding, Jing Yu, Bang Liu, Yue Hu, Mingxin Cui...

TL;DR本研究提出了一种用于视觉问答的多模态知识表示方法 (MuKEA)，通过明确的三元组来关联视觉对象和事实答案，从而构建视觉相关和可解释的多模态知识，该方法可以有效提高对知识的需求的数据集上的表现。

Abstract

knowledge-based visual question answering requires the ability of associating external knowledge for open-ended cross-modal scene understanding. One limitation of existing solutions is that they capture relevant

knowledge-based visual question answering multimodal knowledge vqa triplet representation open-ended cross-modal scene understanding

发现论文，激发创造

基于跨模态知识推理的基于知识的视觉问答

本文提出了基于多个知识图谱的知识的视觉问答模型，通过串联的 GRUC 模块，对不同模态的图像信息进行并行推理，最终利用图神经网络获得全局最优解，在三个流行基准数据集上获得新的 state-of-the-art 表现结果。

Aug, 2020

Mucko: 基于事实的视觉问答的多层交叉模态知识推理

本文提出了一种多模态异构图神经网络来解决基于事实的视觉问答问题，该模型通过逐层的图卷积网络对问题相关证据进行迭代式推理，并在多种数据集上获得了最新的最佳成绩。

Jun, 2020

基于知识的多模态 VQA 答案验证

本文提出一种名为 MAVEx 的多模态回答验证方法，采用了图像、文本和常识知识库进行知识检索，通过学习从杂乱无序的知识源中提取相关知识、选择不同候选答案的合适知识源以及以此验证合适答案的方法，从而在知识驱动的视觉问答中取得了最好的实验效果。

Mar, 2021

思考与观察的结合用于基于外部知识的视觉问答

本文提出一种包含多模态编码器、文本编码器和答案解码器的新型框架，将跨模态空间约束到自然语言空间中，使得视觉特征直接保留在其中，并且从自然语言空间中获得更多的类型知识，实验证明其在多数情况下表现优异。

May, 2023

精确赋能，过度分散：动态注入语言模型中的视觉问答知识

通过提供来自知识图谱中提取的相关外部知识，我们通过增强问题并实现可变数量的三元组，为知识增强的视觉问答模型带来了平均 4.75％的准确匹配得分提升，并展示了其在推理能力和泛化能力方面的优势。

Jun, 2024

基于知识的视觉问答的跨模态检索

基于知识的视觉问答（VQA）涉及使用多模态知识库的信息检索，命名实体的多样化视觉表现使其难以识别，我们认为跨模态检索可能有助于弥合实体与其描述之间的语义差距，对单模态检索产生互补作用，通过对最近的 ViQuAE、InfoSeek 和 Encyclopedic-VQA 数据集上的实验，我们提供了经验证据。此外，我们研究了三种不同的模型微调策略：单模态、跨模态或联合训练。我们的方法结合了单模态和跨模态检索，与三个数据集上的数十亿参数模型相竞争，同时在概念上更简单、计算上更廉价。

Jan, 2024

学习视觉知识记忆网络用于视觉问答

本文提出了一种基于 VKMN 的视觉知识存储网络，通过 End-to-End 的学习框架将结构化人类知识和深度视觉特征融入到记忆网络中来对抗视觉问答中缺乏对结构化知识的利用的问题，并在 VQA 1.0 和 VQA 2.0 基准测试中表现出显著的性能优势，特别是在涉及知识推理的问题方面。

Jun, 2018

面向视觉问答中生成答案和解释的统一模型

提出了一种基于多任务学习的统一模型（UMAE）来解决现有的视觉问答系统中存在的回答和解释分离的问题，其方法涉及在训练数据集中添加人工提示令牌，并在各种 VQA 相关任务上进行细调，实验证明该模型在准确性、解释性和领域外表现等方面均得到了明显的提高。

Jan, 2023

面向基于知识的视觉问答的多模式逆填空任务

本文提出一种基于预训练的多模态逆推理任务方法，用于解决基于知识库的视觉问答，该方法适用于不同的神经网络架构，相比于没有预训练的基准模型，检索和阅读理解的相对 MRR 和相对 F1 分别提高了 9% 和 15%。

Jan, 2023

通过跨媒体知识提取和基础加固进行多媒体多跳新闻问答的 MuMuQA

本文介绍了一个包含 1,384 个跨媒体对象基于新闻文章的多步骤问题的 QA 评估基准，并提出了一个新颖的多媒体数据增强框架，用于自动增强可以为此任务提供弱监督的数据。在我们的基准上评估了基于流水线和端到端预训练的多媒体 QA 模型，并表明它们实现了有希望的性能，但相当滞后于人类表现，因此为未来此挑战性新任务留下了很大的空间。

Dec, 2021