DocVQA: 一个针对文档图像的 VQA 数据集
提出了一个包含多种信息的文档图像的逻辑问答系统,包括视觉、文本和排版信息。SlideVQA 是一个用于复杂推理的新的多图像文档数据集,利用序列到序列模型同时处理证据选择和问题回答。实验结果表明,该方法在 SlideVQA 数据集上表现出了较好的效果。
Jan, 2023
本研究提出了一种基于文档的视觉问答模型,并通过新开发的 PDF-VQA 数据集综合考察了文档理解的不同方面,包括文档元素识别、文档结构理解以及上下文理解和关键信息提取,在模型中明确地将文档元素之间的空间和层级结构关系整合起来,以此增强文档结构理解的能力。
Apr, 2023
通过对 OCR 文本中令牌的处理和选择顺序的细致实验,我们发现这一发现显著提高了在 ViTextVQA 数据集上基准模型的性能。
Apr, 2024
V-Doc 是一种使用文档图像和 PDF 文件的问答工具,主要用于帮助研究人员和普通非深度学习专家生成、处理和理解文档的视觉问答任务,支持使用文档图像生成和使用抽取式和生成式问答对,可用于各种数据集和模型,并且通过声明性、框架不可知平台高度可扩展。
May, 2022
日本文献の質問応答 (JDocQA) は、PDF 形式の 5,504 の文書と日本語でアノテーションされた 11,600 の質問応答インスタンスから成る大規模な文書ベースの QA データセットであり、質問応答アプリケーションにおいて実用的な質問を提供するために回答不可能な質問を組み込んでいます。
Mar, 2024
VQAonline 是第一个所有内容都来源于真实用例的 VQA 数据集,该数据集中的答案往往较长,并且不适用于标准的 VQA 评估指标;研究发现,在长文本评估方面,六个流行的度量标准与人工判断相符度最高;使用最适合的度量标准评估六个最先进的视觉和语言基础模型在 VQAonline 上,揭示了它们最困难的问题。
Nov, 2023
本文提供了一个名为 TAT-DQA 的新的数据集,包含来自财务报告的,既有半结构化表格和非结构化文本,又有 16558 个问答对。此外,作者发明了一种新的文档 VQA 模型 MHST,可以智能地处理来自多种模态的信息,从而有效地回答不同类型的问题,并运用离散推理来训练。结果表明,该模型明显优于基线方法,但仍然远远落后于专家人类。作者希望通过提供新的数据集能够促进对融合视觉和语言的视觉丰富文档的深度理解的研究。
Jul, 2022
本文探讨使用视觉问答技术自动理解信息图像,并介绍包含自然语言问题和答案注释的多样化信息图集 InfographicVQA,强调重点是需要基本推理和基本算术能力的问题。作者进一步在现有的多模态 VQA 模型的基础上建立两种强大的基准,并为新任务建立基准性能。
Apr, 2021