视觉问答
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
本论文提出了Full-Sentence Visual Question Answering (FSVQA),通过自然语言处理技术,为MS COCO数据集中的图像提供了近1百万个问答对。其主要关注点为视觉与语言之间的互动和研究自然语言生成问题中的复杂性和语义信息。
Sep, 2016
本文回顾了近年来计算机视觉和自然语言处理领域关于视觉问答(VQA)的研究,包括问题定义、数据集、算法和评估指标,并深入探讨了当前数据集在训练和评估VQA算法方面的局限性,全面回顾了现有的VQA算法,最后讨论了VQA和图像理解研究的可能未来方向。
Oct, 2016
该研究通过收集相关的图像,用于构建一个平衡的数据集(VQA v2.0),并在此基础上比较现有的 VQA 模型的表现,发现这些模型都受到了语言先验的影响。此外,该研究还提出了一种可解释性模型,它不仅可以回答问题,而且还可以通过提供一个相似但不同的图像来提高用户对其信任度。
Dec, 2016
本文介绍了一种新的视觉问答任务的基线模型,它可以根据图像的内容和自然语言的问题准确地产生答案,并取得了在不平衡和平衡的VQA基准测试中的最新成果。
Apr, 2017
我们研究了盲人用户在看不到图片的情况下经常关注的图像内容,即图片中的文本,并介绍了一种名为LoRRA的新模型用于解决这个问题,同时提出了一个名为TextVQA的数据集来评估和改进模型表现。
Apr, 2019
本篇综述介绍了视觉问答(VQA)任务,包括基于自然语言描述的图像识别以及机器学习模型的研究,主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。
Aug, 2019
通过调查Visual Question Answering(视觉问题回答)领域的复杂性,本研究提供了对VQA数据集和方法的详细分类,展示了该领域的最新趋势、挑战和改进方向,并将VQA推广到多模态问答,探索与VQA相关的任务,并提出了一系列未来研究的开放性问题。
Nov, 2023