文档集合视觉问答

Apr, 2021

Document Collection Visual Question Answering

Rubèn Tito, Dimosthenis Karatzas, Ernest Valveny

TL;DR文章提出一个新的任务 —— 使用文献收集进行文档理解，提出了一个新的数据集和新的评估指标和基线模型

Abstract

Current tasks and methods in document understanding aims to process documents as single elements. However, documents are usually organized in collections (historical records, purchase invoices), that provide context useful for their interpretation. To address this problem, we introduce

document understanding document collection visual question answering dataset evaluation metric

发现论文，激发创造

V-Doc：带有文档的视觉问答系统

V-Doc 是一种使用文档图像和 PDF 文件的问答工具，主要用于帮助研究人员和普通非深度学习专家生成、处理和理解文档的视觉问答任务，支持使用文档图像生成和使用抽取式和生成式问答对，可用于各种数据集和模型，并且通过声明性、框架不可知平台高度可扩展。

May, 2022

PDF-VQA：一个新的 PDF 文档实际应用 VQA 数据集

本研究提出了一种基于文档的视觉问答模型，并通过新开发的 PDF-VQA 数据集综合考察了文档理解的不同方面，包括文档元素识别、文档结构理解以及上下文理解和关键信息提取，在模型中明确地将文档元素之间的空间和层级结构关系整合起来，以此增强文档结构理解的能力。

Apr, 2023

DocVQA: 一个针对文档图像的 VQA 数据集

我们介绍了一个名为 DocVQA 的基于文档图像的视觉问答数据集，并提出了该数据集与其他 VQA 和阅读理解数据集的详细分析。虽然现有模型在某些类型的问题上表现得还不错，但与人类表现相比存在较大的表现差距，需要特别在理解文档结构的问题上提高模型性能。

Jul, 2020

基于离散推理实现复杂文档理解

本文提供了一个名为 TAT-DQA 的新的数据集，包含来自财务报告的，既有半结构化表格和非结构化文本，又有 16558 个问答对。此外，作者发明了一种新的文档 VQA 模型 MHST，可以智能地处理来自多种模态的信息，从而有效地回答不同类型的问题，并运用离散推理来训练。结果表明，该模型明显优于基线方法，但仍然远远落后于专家人类。作者希望通过提供新的数据集能够促进对融合视觉和语言的视觉丰富文档的深度理解的研究。

Jul, 2022

JDocQA: 用于生成语言模型的日语文档问答数据集

日本文献の質問応答 (JDocQA) は、PDF 形式の 5,504 の文書と日本語でアノテーションされた 11,600 の質問応答インスタンスから成る大規模な文書ベースの QA データセットであり、質問応答アプリケーションにおいて実用的な質問を提供するために回答不可能な質問を組み込んでいます。

Mar, 2024

隐私感知的文档视觉问答

在本研究中，我们首次探索了文档视觉问答（DocVQA）领域的隐私问题，并提出了使用联邦学习和差分隐私的基线训练方案，用于保护敏感信息以及避免模型记忆效应所导致的私人信息泄露。

Dec, 2023

多页文档视觉问答使用自注意力评分机制

多页文档视觉问答任务的新方法和有效训练策略，利用视觉特征对文档页进行相关性评分，可在多页场景中提供与最新技术相媲美的性能，且对 GPU 资源需求较少。

Apr, 2024

PDF-MVQA：基于 PDF 的视觉问答多模信息检索数据集

针对长篇研究期刊文章等富有文本内容的视觉丰富文档，我们提出了 PDF-MVQA，旨在解决现有研究主要关注稀缺文本的现实世界文档的问题，而在理解多个页面之间的层次语义关系以定位多模态组件方面仍面临挑战。我们的贡献包括介绍了一个全面的 PDF 文档视觉问答数据集，用于研究文本主导文档中的语义层次布局结构。我们还提出了新的视觉丰富文档问答框架，同时考虑文档布局中的文本内容和关系，将页面级别理解扩展到整个多页文档。通过这项工作，我们旨在提高现有视觉和语言模型在处理视觉丰富文档视觉问答时的能力。

Apr, 2024

场景文本视觉问答

本文介绍了一个新数据集，即 ST-VQA，旨在强调利用图像中文本信息的重要性。我们使用这个数据集定义了一系列难度不断增加的任务，需要利用图像中提供的上下文阅读场景文本以进行推理和生成适当的答案。我们提出了一个新的评估指标来考虑推理错误以及文本识别模块的缺陷，同时提出一系列基线方法。

May, 2019

CFRet-DVQA：用于文档视觉问答的逐步细化检索和高效调整

通过检索和高效调整的方式，CFRet-DVQA 方法实现了文档视觉问答中的信息定位和答案生成，展示出与单页和多页文档相关领域的最先进或竞争性的结果。

Feb, 2024