视觉问答调查：数据集与技术

May, 2017

Survey of Visual Question Answering: Datasets and Techniques

Akshay Kumar Gupta

TL;DR该文综述了近年来关于视觉问答的各种数据集和模型，分别从数据集和模型两个方面进行了比较和总结，并提出了未来研究的方向。

Abstract

visual question answering (or VQA) is a new and exciting problem that combines natural language processing and computer vision techniques.

发现论文，激发创造

视觉问答: 方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016

视觉问答：数据集、算法和未来挑战

本文回顾了近年来计算机视觉和自然语言处理领域关于视觉问答（VQA）的研究，包括问题定义、数据集、算法和评估指标，并深入探讨了当前数据集在训练和评估VQA算法方面的局限性，全面回顾了现有的VQA算法，最后讨论了VQA和图像理解研究的可能未来方向。

Oct, 2016

视觉问答算法分析

本文分析了现有的视觉问答（VQA）算法，并使用一个新数据集进行了评估，提出了新的评估方案来补偿过度展示的问题类型，并研究了不同算法的优缺点和注意力机制的作用。

Mar, 2017

视觉问答最近进展综述

该论文综述了不同方法来解决视觉问答的问题，特别是描述了各种算法提取图像特征和文本特征的方法，并讨论了评估VQA模型的实验，并报告了它们在各种数据集上的表现。

Sep, 2017

通向万能视觉问答模型之路：回答它们的全部问题！

该论文研究了视觉问答算法，发现现有算法在自然图像理解和推理两个领域上不能很好地综合运用。作者提出了一种新的VQA算法，能够在这两个领域上达到或超越现有算法的水平。

Mar, 2019

使用深度学习的视觉问答: 调查和性能分析

本篇综述介绍了视觉问答（VQA）任务，包括基于自然语言描述的图像识别以及机器学习模型的研究，主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。

Aug, 2019

视频问答的近期进展：数据集和方法回顾

本综述探讨了最近新兴的计算机视觉领域中的视频问答任务，重点回顾了一些方法和数据集，并指出此任务以前没有进行过综述。

Jan, 2021

视觉问答：近期文献中的技术和普遍趋势调查

这篇论文调查了目前在视觉问答领域的多项研究，并提供了深入的分析和比较，包括结果、现有技术的状态、常见错误以及未来研究的可能改进点。

May, 2023

强健的视觉问答：数据集，方法和未来挑战

视觉问答研究需要系统能够根据图像和自然语言问题提供准确的自然语言答案。然而，先前的通用VQA方法普遍存在记忆训练数据中的偏见而不是学习正确行为（如在预测答案之前进行图像建立联系）。因此，这些方法通常在分布内获得高性能但在分布外获得低性能。最近几年，已经提出了各种数据集和去偏见方法来评估和增强VQA的稳健性。本文提供了关于这一新兴领域的首个综述，重点讨论视觉问答中的这些问题。具体来说，首先概述了数据集的发展过程，从分布内和分布外的角度进行了分析。然后，研究了这些数据集使用的评估指标。第三，提出了一种类型学，介绍了现有去偏见方法的发展过程、相似之处与差异、稳健性比较和技术特征。此外，分析和讨论了VQA中代表性视觉与语言预训练模型的稳健性。最后，通过对现有文献的彻底审查和实验分析，从各个角度探讨了未来研究的关键领域。

Jul, 2023

从图像到语言：对视觉问答（VQA）方法、挑战和机遇的关键分析

通过调查Visual Question Answering（视觉问题回答）领域的复杂性，本研究提供了对VQA数据集和方法的详细分类，展示了该领域的最新趋势、挑战和改进方向，并将VQA推广到多模态问答，探索与VQA相关的任务，并提出了一系列未来研究的开放性问题。

Nov, 2023