JDocQA: 用于生成语言模型的日语文档问答数据集
我们介绍了一个名为DocVQA的基于文档图像的视觉问答数据集,并提出了该数据集与其他VQA和阅读理解数据集的详细分析。虽然现有模型在某些类型的问题上表现得还不错,但与人类表现相比存在较大的表现差距,需要特别在理解文档结构的问题上提高模型性能。
Jul, 2020
本文提出一种在Common Crawl项目的基础上,使用大规模、自然、多样化问答数据集进行领域内预训练的方法,该方法可以用于open-domain question-answering任务中的零样本、低资源和微调设置,展示了预训练在该任务中的潜力。
Oct, 2021
本文提出了JaQuAD数据集,它是一种由人类注释的日语问答数据集,用于非英语语言的QA任务的研究。该数据集由39,696个问题-答案对组成并且基于日本维基百科文章。我们针对基线模型进行微调,测试数据集上的F1得分为78.92%,EM为63.38%。
Feb, 2022
本文提供了一个名为TAT-DQA的新的数据集,包含来自财务报告的,既有半结构化表格和非结构化文本,又有16558个问答对。此外,作者发明了一种新的文档VQA模型MHST,可以智能地处理来自多种模态的信息,从而有效地回答不同类型的问题,并运用离散推理来训练。结果表明,该模型明显优于基线方法,但仍然远远落后于专家人类。作者希望通过提供新的数据集能够促进对融合视觉和语言的视觉丰富文档的深度理解的研究。
Jul, 2022
本文介绍并公开发布了PolQA,这是第一个用于OpenQA的波兰语数据集。该数据集包含7,000个问题,87,525个手动标注的证据段落和超过7,097,322个候选段落。该资源允许我们评估不同注释选择对QA系统性能的影响,并提出一种有效的注释策略,使召回率提高了10.55 p.p. 并同时将注释成本降低了82%。
Dec, 2022
提出了一个包含多种信息的文档图像的逻辑问答系统,包括视觉、文本和排版信息。SlideVQA是一个用于复杂推理的新的多图像文档数据集,利用序列到序列模型同时处理证据选择和问题回答。实验结果表明,该方法在SlideVQA数据集上表现出了较好的效果。
Jan, 2023
本研究提出了一种基于文档的视觉问答模型,并通过新开发的PDF-VQA数据集综合考察了文档理解的不同方面,包括文档元素识别、文档结构理解以及上下文理解和关键信息提取,在模型中明确地将文档元素之间的空间和层级结构关系整合起来,以此增强文档结构理解的能力。
Apr, 2023
本文介绍HaVQA数据集,这是用于哈萨语视觉问答任务的第一个多模态数据集。数据集包含来自视觉基因组的1,555张图像以及经过手工翻译的6,022个英文问题答案对,提供了12,044个英文-豪萨语平行语句,可用于进行基线实验,包括视觉问答、视觉问答引导、仅文本和多模态机器翻译。
May, 2023
近期文件问答模型包括两个关键组成部分:视觉编码器,用于捕捉图像中的布局和视觉元素,以及大型语言模型(LLM),有助于将问题与图像上下文化并通过补充外部世界知识来生成准确答案。然而,这些任务中视觉编码器和语言模型的相对贡献仍不清楚。本文探讨了以下几个方面:(1)仅使用LLM的方法对文档问答任务的有效性;(2)在文档图像中进行文本信息的序列化,并将其直接提供给经过指令调整的LLM,从而绕过显式视觉编码器的需求;(3)对这种方法的可行性进行了全面的定量分析。我们综合分析了六个不同的基准数据集,使用了不同规模的LLMs。我们的研究结果表明,仅依赖LLM的策略在各种数据集上的结果与最先进的性能相当或非常接近。我们认为,这一评估框架将作为为未来强调布局和图像内容信息的研究工作选择适当数据集的指导资源。
Sep, 2023
通过创建FanOutQA数据集以及进行评估测试,研究发现当处理复杂的多文档依赖关系时,当代的语言模型如GPT-4、LLaMA 2、Claude-2.1和Mixtral-8x7B仍存在推理能力的提升空间。
Feb, 2024