场景文本视觉问答

May, 2019

Scene Text Visual Question Answering

Ali Furkan Biten, Ruben Tito, Andres Mafla, Lluis Gomez, Marçal Rusiñol...

TL;DR本文介绍了一个新数据集，即ST-VQA，旨在强调利用图像中文本信息的重要性。我们使用这个数据集定义了一系列难度不断增加的任务，需要利用图像中提供的上下文阅读场景文本以进行推理和生成适当的答案。我们提出了一个新的评估指标来考虑推理错误以及文本识别模块的缺陷，同时提出一系列基线方法。

Abstract

Current visual question answering datasets do not consider the rich semantic information conveyed by text within an image. In this work, we present a new dataset, ST-VQA, that aims to highlight the importance of

发现论文，激发创造

视觉问答

本文提出自由和开放的视觉问答（VQA）任务，旨在通过自然语言问题回答图片问题，涉及到图片理解、多种语言的回答以及数据集和评价方法。

May, 2015

视觉问答: 方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016

视觉问答：数据集、算法和未来挑战

本文回顾了近年来计算机视觉和自然语言处理领域关于视觉问答（VQA）的研究，包括问题定义、数据集、算法和评估指标，并深入探讨了当前数据集在训练和评估VQA算法方面的局限性，全面回顾了现有的VQA算法，最后讨论了VQA和图像理解研究的可能未来方向。

Oct, 2016

ICDAR 2019 场景文本视觉问答竞赛

本文介绍了ICDAR 2019场景文本视觉问答比赛(ST-VQA)的最终结果和新数据集，包括23038张图像和31791个文本实例答案，涵盖广泛的情景。该竞赛共有3个递增的任务，需要理解场景中的文本并回答问题。提出了一种新的评估度量标准，旨在评估文本识别和图像理解两种关键能力。结果分析提供了VQA系统当前的能力洞见。此数据集标志着使用场景文本实现全面图像理解的更强大、更通用的模型的重要里程碑。

Jun, 2019

关于证据的一般价值和双语场景文本视觉问答

该研究提出了一个多语言数据集，旨在解决视觉问题回答方法的泛化问题，利用基于推理的度量方法来鼓励泛化，并通过提供实验证据表明数据集的价值。

Feb, 2020

图像集上的视觉问答

该研究介绍了一种称为ISVQA的任务，即将自然语言问题和一组图片作为输入，并旨在根据图像的内容回答问题。此外，该研究还引入了两个在室内和室外场景中的ISVQA数据集，并分析了它们的各种属性。研究还构建了新的基线模型以探究该领域的新的研究挑战。

Aug, 2020

MUST-VQA: 多语言场景文本VQA

本文提出了一个用于处理零样本多语言场景文本视觉问答的框架，该框架首先引入了更加通用的MUST-VQA，在受限环境下进行了两种评估场景的讨论，并证明了模型在零样本环境下的可行性，同时进一步展示了将多语言模型适应于STVQA任务的有效性。

Sep, 2022

提升文本-视觉问答中的文本表达

通过结合TextVQA和VQA数据集，我们提出了一种方法，在文本和图像特征之间增加了理解和关联性，从而提高了对问题的回答准确性。

Aug, 2023

从图像到语言：对视觉问答（VQA）方法、挑战和机遇的关键分析

通过调查Visual Question Answering（视觉问题回答）领域的复杂性，本研究提供了对VQA数据集和方法的详细分类，展示了该领域的最新趋势、挑战和改进方向，并将VQA推广到多模态问答，探索与VQA相关的任务，并提出了一系列未来研究的开放性问题。

Nov, 2023

ViTextVQA：用于评估图像中越南文本理解的大规模视觉问答数据集

通过对OCR文本中令牌的处理和选择顺序的细致实验，我们发现这一发现显著提高了在ViTextVQA数据集上基准模型的性能。

Apr, 2024