通向万能视觉问答模型之路:回答它们的全部问题!
介绍了一种需要外部信息支持、对图像进行深层次推理的视觉问答数据集 FVQA,并在该数据集上评估了多种基线模型,提出了一种新的模型能够基于支持事实对图像进行推理。
Jun, 2016
本文提出了一种基于二元分类的简单替代模型来解决视觉问答中的一些问题,并通过在Visual7W Telling和VQA Real Multiple Choice任务上的实验表明该模型的简单版本同样具有竞争力,同时,作者发现现有的视觉问答系统性能的瓶颈可能在于其对问题及答案中基础概念的不足认知,其表现相对于充分利用数据集偏见的系统并没有显著提升。
Jun, 2016
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
本文回顾了近年来计算机视觉和自然语言处理领域关于视觉问答(VQA)的研究,包括问题定义、数据集、算法和评估指标,并深入探讨了当前数据集在训练和评估VQA算法方面的局限性,全面回顾了现有的VQA算法,最后讨论了VQA和图像理解研究的可能未来方向。
Oct, 2016
本研究提出了一种基于机器阅读理解的方法,通过将视觉和文本特征统一到自然语言中以解决视觉问答中的多模态特征融合问题,并能够处理大规模外部知识库等基于知识的问题。实验结果表明,该方法在三个数据集上性能具有可比性,此为利用文本和自然语言处理技术解决视觉问答问题的一步。
Nov, 2018
本篇综述介绍了视觉问答(VQA)任务,包括基于自然语言描述的图像识别以及机器学习模型的研究,主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。
Aug, 2019
通过调查Visual Question Answering(视觉问题回答)领域的复杂性,本研究提供了对VQA数据集和方法的详细分类,展示了该领域的最新趋势、挑战和改进方向,并将VQA推广到多模态问答,探索与VQA相关的任务,并提出了一系列未来研究的开放性问题。
Nov, 2023