Apr, 2023

PDF-VQA:一个新的 PDF 文档实际应用 VQA 数据集

TL;DR本研究提出了一种基于文档的视觉问答模型,并通过新开发的 PDF-VQA 数据集综合考察了文档理解的不同方面,包括文档元素识别、文档结构理解以及上下文理解和关键信息提取,在模型中明确地将文档元素之间的空间和层级结构关系整合起来,以此增强文档结构理解的能力。