本文回顾了近年来计算机视觉和自然语言处理领域关于视觉问答(VQA)的研究,包括问题定义、数据集、算法和评估指标,并深入探讨了当前数据集在训练和评估 VQA 算法方面的局限性,全面回顾了现有的 VQA 算法,最后讨论了 VQA 和图像理解研究的可能未来方向。
Oct, 2016
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合 Visual Genome 数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
本文针对 VideoQA 展开研究,提出了一个明确的分类学和全面的分析方法,并指出未来探索的几个有前途的方向。
Mar, 2022
该文综述了近年来关于视觉问答的各种数据集和模型,分别从数据集和模型两个方面进行了比较和总结,并提出了未来研究的方向。
May, 2017
这篇论文调查了目前在视觉问答领域的多项研究,并提供了深入的分析和比较,包括结果、现有技术的状态、常见错误以及未来研究的可能改进点。
May, 2023
该论文综述了不同方法来解决视觉问答的问题,特别是描述了各种算法提取图像特征和文本特征的方法,并讨论了评估 VQA 模型的实验,并报告了它们在各种数据集上的表现。
Sep, 2017
本篇综述介绍了视觉问答(VQA)任务,包括基于自然语言描述的图像识别以及机器学习模型的研究,主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。
Aug, 2019
本文提出自由和开放的视觉问答(VQA)任务,旨在通过自然语言问题回答图片问题,涉及到图片理解、多种语言的回答以及数据集和评价方法。
May, 2015
该研究提出了一种新的 co-attention 模型来利用现成的算法实现图像操作,从而达到居于最先进水平的视觉问答结果。
Dec, 2016
通过调查 Visual Question Answering(视觉问题回答)领域的复杂性,本研究提供了对 VQA 数据集和方法的详细分类,展示了该领域的最新趋势、挑战和改进方向,并将 VQA 推广到多模态问答,探索与 VQA 相关的任务,并提出了一系列未来研究的开放性问题。
Nov, 2023