本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合 Visual Genome 数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
本研究提出了一种基于机器阅读理解的方法,通过将视觉和文本特征统一到自然语言中以解决视觉问答中的多模态特征融合问题,并能够处理大规模外部知识库等基于知识的问题。实验结果表明,该方法在三个数据集上性能具有可比性,此为利用文本和自然语言处理技术解决视觉问答问题的一步。
Nov, 2018
本篇综述介绍了视觉问答(VQA)任务,包括基于自然语言描述的图像识别以及机器学习模型的研究,主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。
Aug, 2019
这篇论文调查了目前在视觉问答领域的多项研究,并提供了深入的分析和比较,包括结果、现有技术的状态、常见错误以及未来研究的可能改进点。
May, 2023
通过调查 Visual Question Answering(视觉问题回答)领域的复杂性,本研究提供了对 VQA 数据集和方法的详细分类,展示了该领域的最新趋势、挑战和改进方向,并将 VQA 推广到多模态问答,探索与 VQA 相关的任务,并提出了一系列未来研究的开放性问题。
Nov, 2023
本文回顾了近年来计算机视觉和自然语言处理领域关于视觉问答(VQA)的研究,包括问题定义、数据集、算法和评估指标,并深入探讨了当前数据集在训练和评估 VQA 算法方面的局限性,全面回顾了现有的 VQA 算法,最后讨论了 VQA 和图像理解研究的可能未来方向。
Oct, 2016
该文综述了近年来关于视觉问答的各种数据集和模型,分别从数据集和模型两个方面进行了比较和总结,并提出了未来研究的方向。
May, 2017
该论文研究了视觉问答算法,发现现有算法在自然图像理解和推理两个领域上不能很好地综合运用。作者提出了一种新的 VQA 算法,能够在这两个领域上达到或超越现有算法的水平。
Mar, 2019
本文提出自由和开放的视觉问答(VQA)任务,旨在通过自然语言问题回答图片问题,涉及到图片理解、多种语言的回答以及数据集和评价方法。
May, 2015
通过比较视觉问答模型的输出和注意力图与人类的相似之处,研究发现虽然 VQA 模型在结构和识别水平上与人类相似,但在认知推理方面仍然存在挑战。人类思维过程的分析有助于指导未来的研究,并在建模特征和架构中引入更多的认知能力。
Oct, 2023