视觉问答调查:数据集与技术
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
本文回顾了近年来计算机视觉和自然语言处理领域关于视觉问答(VQA)的研究,包括问题定义、数据集、算法和评估指标,并深入探讨了当前数据集在训练和评估VQA算法方面的局限性,全面回顾了现有的VQA算法,最后讨论了VQA和图像理解研究的可能未来方向。
Oct, 2016
该论文研究了视觉问答算法,发现现有算法在自然图像理解和推理两个领域上不能很好地综合运用。作者提出了一种新的VQA算法,能够在这两个领域上达到或超越现有算法的水平。
Mar, 2019
本篇综述介绍了视觉问答(VQA)任务,包括基于自然语言描述的图像识别以及机器学习模型的研究,主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。
Aug, 2019
视觉问答研究需要系统能够根据图像和自然语言问题提供准确的自然语言答案。然而,先前的通用VQA方法普遍存在记忆训练数据中的偏见而不是学习正确行为(如在预测答案之前进行图像建立联系)。因此,这些方法通常在分布内获得高性能但在分布外获得低性能。最近几年,已经提出了各种数据集和去偏见方法来评估和增强VQA的稳健性。本文提供了关于这一新兴领域的首个综述,重点讨论视觉问答中的这些问题。具体来说,首先概述了数据集的发展过程,从分布内和分布外的角度进行了分析。然后,研究了这些数据集使用的评估指标。第三,提出了一种类型学,介绍了现有去偏见方法的发展过程、相似之处与差异、稳健性比较和技术特征。此外,分析和讨论了VQA中代表性视觉与语言预训练模型的稳健性。最后,通过对现有文献的彻底审查和实验分析,从各个角度探讨了未来研究的关键领域。
Jul, 2023
通过调查Visual Question Answering(视觉问题回答)领域的复杂性,本研究提供了对VQA数据集和方法的详细分类,展示了该领域的最新趋势、挑战和改进方向,并将VQA推广到多模态问答,探索与VQA相关的任务,并提出了一系列未来研究的开放性问题。
Nov, 2023