当前的视觉问答(VQA)模型倾向于在孤立的图像 - 问题对上进行训练和评估。然而,人们提出的问题取决于他们的信息需求和对图像内容的先前知识。为了评估如何将图像置于自然语境中以形成视觉问题,我们引入了 CommVQA,这个 VQA 数据集包括图像、图像描述、可能出现图像的现实沟通场景(例如旅行网站),以及依赖于场景的后续问题和答案。我们发现,CommVQA 对当前模型构成了挑战。向 VQA 模型提供情境信息可以广泛提高性能,凸显了将系统置于沟通场景中的相关性。
Feb, 2024
本文提出自由和开放的视觉问答(VQA)任务,旨在通过自然语言问题回答图片问题,涉及到图片理解、多种语言的回答以及数据集和评价方法。
May, 2015
本研究评估了视觉问答机器人在视觉障碍用户环境下的实际应用与机器 “理解” 数据集之间的不一致之处,并建议未来的研究方向。
Oct, 2022
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合 Visual Genome 数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
本文提出了一种基于二元分类的简单替代模型来解决视觉问答中的一些问题,并通过在 Visual7W Telling 和 VQA Real Multiple Choice 任务上的实验表明该模型的简单版本同样具有竞争力,同时,作者发现现有的视觉问答系统性能的瓶颈可能在于其对问题及答案中基础概念的不足认知,其表现相对于充分利用数据集偏见的系统并没有显著提升。
Jun, 2016
本篇综述介绍了视觉问答(VQA)任务,包括基于自然语言描述的图像识别以及机器学习模型的研究,主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。
Aug, 2019
该研究通过收集相关的图像,用于构建一个平衡的数据集(VQA v2.0),并在此基础上比较现有的 VQA 模型的表现,发现这些模型都受到了语言先验的影响。此外,该研究还提出了一种可解释性模型,它不仅可以回答问题,而且还可以通过提供一个相似但不同的图像来提高用户对其信任度。
Dec, 2016
通过建立基于内容和上下文的 CCB 模型,可以减少语言偏差,同时提高 Visual Question Answering (VQA) 模型的学习能力。
Dec, 2020
该论文研究了视觉问答算法,发现现有算法在自然图像理解和推理两个领域上不能很好地综合运用。作者提出了一种新的 VQA 算法,能够在这两个领域上达到或超越现有算法的水平。
Mar, 2019
本文回顾了近年来计算机视觉和自然语言处理领域关于视觉问答(VQA)的研究,包括问题定义、数据集、算法和评估指标,并深入探讨了当前数据集在训练和评估 VQA 算法方面的局限性,全面回顾了现有的 VQA 算法,最后讨论了 VQA 和图像理解研究的可能未来方向。
Oct, 2016