基于显式知识的视觉问答推理

Nov, 2015

Explicit Knowledge-based Reasoning for Visual Question Answering

Peng Wang, Qi Wu, Chunhua Shen, Anton van den Hengel, Anthony Dick

TL;DR使用来自大规模知识库的信息来推理图片内容，解释推理过程并回答自然语言问题的视觉问答方法，比主流的长短时记忆方法更能回答复杂问题且表现明显更好，同时提供了数据集和协议来评估这类方法。

Abstract

We describe a method for visual question answering which is capable of reasoning about contents of an image on the basis of information extracted from a large-scale knowledge base. The method not only answers

发现论文，激发创造

基于外部知识的自由形式视觉问答

提出了一种结合图像内容的内部表示和来自广义知识库提取的信息以回答广泛的基于图像的问题的视觉问答方法，可回答自然语言提出的关于图像内容以外信息的问题，显示在 Toronto COCO-QA 和 MS COCO-VQA 数据集上获得最佳结果。

Nov, 2015

视觉问答: 方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016

基于端到端神经网络架构的视觉问答显式推理

该论文提出了一种在视觉问答任务中使用通感推理的方法，该方法可以通过显式推理层来解决一些需要额外知识的问题，并提供可解释性的界面。该推理层采用了基于概率的软逻辑引擎，并运用了一篮子输入来进行推理。实验证实了该方法的有效性。

Mar, 2018

可解释的高阶视觉问答推理：一个新的基准和知识路由网络

本研究提出了一个新的 HVQR 基准，用于评估 VQA 系统的解释能力和高阶推理能力，该基准具有多级推理、常识知识库和知识路由模块等特点，并通过大规模数据集进行验证。

Sep, 2019

基于跨模态知识推理的基于知识的视觉问答

本文提出了基于多个知识图谱的知识的视觉问答模型，通过串联的 GRUC 模块，对不同模态的图像信息进行并行推理，最终利用图神经网络获得全局最优解，在三个流行基准数据集上获得新的 state-of-the-art 表现结果。

Aug, 2020

基于粗到细的视觉问答推理

本文提出了一种新的推理框架来填补VQA任务中视觉特征和语义线索之间的语义鸿沟，实现了特征和谓词的有效联合学习，并在三个大规模数据集上实现了其他最先进方法无法比拟的准确度，同时还提供了一种可解释的方式来理解深度神经网络在预测答案时的决策。

Oct, 2021

开放域问答系统能回答视觉知识问题吗？

本研究提出了一种基于文本的视觉问题解答系统，此系统无需额外外部知识，仅利用BERT模型进行重新提问，表现优异，且仅使用训练数据的10％。

Feb, 2022

基于动态键值存储增强的多步图推理方法用于基于知识的视觉问答

本文提出一种名为动态知识记忆增强多步图推理（DMMGR）的新型模型，能够在键-值知识记忆模块和空间感知图像图上执行显式和隐式推理，并在KRVQR和FVQA数据集上实现了新的最先进的准确性。

Mar, 2022

基于知识的视觉问答的简单基准

这篇研究论文介绍了一种基于知识的视觉问答（KB-VQA）问题的方法，通过在上下文中进行高效的学习，使用问题相关的标题作为上下文信息，而无需训练或访问外部数据库或API，实现了最先进的准确度。

Oct, 2023

基于问题分解的知识驱动和视觉推理解耦的知识图谱可视问答

我们研究了基于知识的视觉问答问题，通过将复杂问题替换为多个简单问题，从图像中提取更相关的信息来增强对图像的理解，并在三个著名的视觉问答数据集中实现了高达2%的准确率提升。

Jun, 2024