本文提出自由和开放的视觉问答(VQA)任务,旨在通过自然语言问题回答图片问题,涉及到图片理解、多种语言的回答以及数据集和评价方法。
May, 2015
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
本文回顾了近年来计算机视觉和自然语言处理领域关于视觉问答(VQA)的研究,包括问题定义、数据集、算法和评估指标,并深入探讨了当前数据集在训练和评估VQA算法方面的局限性,全面回顾了现有的VQA算法,最后讨论了VQA和图像理解研究的可能未来方向。
Oct, 2016
本文介绍了ICDAR 2019场景文本视觉问答比赛(ST-VQA)的最终结果和新数据集,包括23038张图像和31791个文本实例答案,涵盖广泛的情景。该竞赛共有3个递增的任务,需要理解场景中的文本并回答问题。提出了一种新的评估度量标准,旨在评估文本识别和图像理解两种关键能力。结果分析提供了VQA系统当前的能力洞见。此数据集标志着使用场景文本实现全面图像理解的更强大、更通用的模型的重要里程碑。
Jun, 2019
该研究提出了一个多语言数据集,旨在解决视觉问题回答方法的泛化问题,利用基于推理的度量方法来鼓励泛化,并通过提供实验证据表明数据集的价值。
Feb, 2020
该研究介绍了一种称为ISVQA的任务,即将自然语言问题和一组图片作为输入,并旨在根据图像的内容回答问题。此外,该研究还引入了两个在室内和室外场景中的ISVQA数据集,并分析了它们的各种属性。研究还构建了新的基线模型以探究该领域的新的研究挑战。
Aug, 2020
本文提出了一个用于处理零样本多语言场景文本视觉问答的框架,该框架首先引入了更加通用的MUST-VQA,在受限环境下进行了两种评估场景的讨论,并证明了模型在零样本环境下的可行性,同时进一步展示了将多语言模型适应于STVQA任务的有效性。
Sep, 2022
通过结合TextVQA和VQA数据集,我们提出了一种方法,在文本和图像特征之间增加了理解和关联性,从而提高了对问题的回答准确性。
Aug, 2023
通过调查Visual Question Answering(视觉问题回答)领域的复杂性,本研究提供了对VQA数据集和方法的详细分类,展示了该领域的最新趋势、挑战和改进方向,并将VQA推广到多模态问答,探索与VQA相关的任务,并提出了一系列未来研究的开放性问题。
Nov, 2023
通过对OCR文本中令牌的处理和选择顺序的细致实验,我们发现这一发现显著提高了在ViTextVQA数据集上基准模型的性能。
Apr, 2024