SlideVQA：多图文档视觉问答数据集

AAAIJan, 2023

SlideVQA：多图文档视觉问答数据集

SlideVQA: A Dataset for Document Visual Question Answering on Multiple Images

Ryota Tanaka, Kyosuke Nishida, Kosuke Nishida, Taku Hasegawa, Itsumi Saito...

TL;DR提出了一个包含多种信息的文档图像的逻辑问答系统，包括视觉、文本和排版信息。SlideVQA 是一个用于复杂推理的新的多图像文档数据集，利用序列到序列模型同时处理证据选择和问题回答。实验结果表明，该方法在 SlideVQA 数据集上表现出了较好的效果。

Abstract

visual question answering on document images that contain textual, visual, and layout information, called document vqa, has received much attention recently. Although many datasets have been proposed for developi

visual question answering document vqa multi-image dataset numerical reasoning sequence-to-sequence model

发现论文，激发创造

DocVQA: 一个针对文档图像的 VQA 数据集

我们介绍了一个名为 DocVQA 的基于文档图像的视觉问答数据集，并提出了该数据集与其他 VQA 和阅读理解数据集的详细分析。虽然现有模型在某些类型的问题上表现得还不错，但与人类表现相比存在较大的表现差距，需要特别在理解文档结构的问题上提高模型性能。

Jul, 2020

PDF-VQA：一个新的 PDF 文档实际应用 VQA 数据集

本研究提出了一种基于文档的视觉问答模型，并通过新开发的 PDF-VQA 数据集综合考察了文档理解的不同方面，包括文档元素识别、文档结构理解以及上下文理解和关键信息提取，在模型中明确地将文档元素之间的空间和层级结构关系整合起来，以此增强文档结构理解的能力。

Apr, 2023

ViTextVQA：用于评估图像中越南文本理解的大规模视觉问答数据集

通过对 OCR 文本中令牌的处理和选择顺序的细致实验，我们发现这一发现显著提高了在 ViTextVQA 数据集上基准模型的性能。

Apr, 2024

基于离散推理实现复杂文档理解

本文提供了一个名为 TAT-DQA 的新的数据集，包含来自财务报告的，既有半结构化表格和非结构化文本，又有 16558 个问答对。此外，作者发明了一种新的文档 VQA 模型 MHST，可以智能地处理来自多种模态的信息，从而有效地回答不同类型的问题，并运用离散推理来训练。结果表明，该模型明显优于基线方法，但仍然远远落后于专家人类。作者希望通过提供新的数据集能够促进对融合视觉和语言的视觉丰富文档的深度理解的研究。

Jul, 2022

PDF-MVQA：基于 PDF 的视觉问答多模信息检索数据集

针对长篇研究期刊文章等富有文本内容的视觉丰富文档，我们提出了 PDF-MVQA，旨在解决现有研究主要关注稀缺文本的现实世界文档的问题，而在理解多个页面之间的层次语义关系以定位多模态组件方面仍面临挑战。我们的贡献包括介绍了一个全面的 PDF 文档视觉问答数据集，用于研究文本主导文档中的语义层次布局结构。我们还提出了新的视觉丰富文档问答框架，同时考虑文档布局中的文本内容和关系，将页面级别理解扩展到整个多页文档。通过这项工作，我们旨在提高现有视觉和语言模型在处理视觉丰富文档视觉问答时的能力。

Apr, 2024

教学视频问题回答数据集

提出了一种新的基于教学视频的问题回答任务，并介绍了一个包含约 6000 个三元组的数据集（视频，问题，回答跨度），并使用几个基准算法对其进行了实验，从而得出该任务的挑战性并呼吁探索新算法。

Dec, 2019

OpenViVQA: 越南语视觉问题回答任务、数据集和多模态融合模型

本文介绍了 OpenViVQA：首个包含越南语开放式答案的大规模 VQA 数据集，包括 11,000 + 图像和 37,000+ 问答对，并提出了三个融合图像和答案信息的方法（FST，QuMLAG 和 MLPAG），并使用这些融合的特征构建答案，旨在促进研究社区针对越南语这类低资源语言开发出更广义的算法，结果与 SOTA 模型竞争力相当。

May, 2023

图像集上的视觉问答

该研究介绍了一种称为 ISVQA 的任务，即将自然语言问题和一组图片作为输入，并旨在根据图像的内容回答问题。此外，该研究还引入了两个在室内和室外场景中的 ISVQA 数据集，并分析了它们的各种属性。研究还构建了新的基线模型以探究该领域的新的研究挑战。

Aug, 2020

V-Doc：带有文档的视觉问答系统

V-Doc 是一种使用文档图像和 PDF 文件的问答工具，主要用于帮助研究人员和普通非深度学习专家生成、处理和理解文档的视觉问答任务，支持使用文档图像生成和使用抽取式和生成式问答对，可用于各种数据集和模型，并且通过声明性、框架不可知平台高度可扩展。

May, 2022

StackOverflowVQA: Stack Overflow 视觉问答数据集

人们越来越倾向于使用人工智能来解决各种问题，包括软件相关的编程问题。本研究通过引入 StackOverflowVQA 数据集，并提供一种基于 GIT 模型的算法，首次关注了需要通过图像理解问题的软件相关问题，该数据集包含多个人工产生的完整句子回答。

May, 2024