V-Doc:带有文档的视觉问答系统
日本文献の質問応答 (JDocQA) は、PDF 形式の 5,504 の文書と日本語でアノテーションされた 11,600 の質問応答インスタンスから成る大規模な文書ベースの QA データセットであり、質問応答アプリケーションにおいて実用的な質問を提供するために回答不可能な質問を組み込んでいます。
Mar, 2024
本研究提出了一种基于文档的视觉问答模型,并通过新开发的 PDF-VQA 数据集综合考察了文档理解的不同方面,包括文档元素识别、文档结构理解以及上下文理解和关键信息提取,在模型中明确地将文档元素之间的空间和层级结构关系整合起来,以此增强文档结构理解的能力。
Apr, 2023
在本研究中,我们首次探索了文档视觉问答(DocVQA)领域的隐私问题,并提出了使用联邦学习和差分隐私的基线训练方案,用于保护敏感信息以及避免模型记忆效应所导致的私人信息泄露。
Dec, 2023
我们介绍了一个名为 DocVQA 的基于文档图像的视觉问答数据集,并提出了该数据集与其他 VQA 和阅读理解数据集的详细分析。虽然现有模型在某些类型的问题上表现得还不错,但与人类表现相比存在较大的表现差距,需要特别在理解文档结构的问题上提高模型性能。
Jul, 2020
本文提供了一个名为 TAT-DQA 的新的数据集,包含来自财务报告的,既有半结构化表格和非结构化文本,又有 16558 个问答对。此外,作者发明了一种新的文档 VQA 模型 MHST,可以智能地处理来自多种模态的信息,从而有效地回答不同类型的问题,并运用离散推理来训练。结果表明,该模型明显优于基线方法,但仍然远远落后于专家人类。作者希望通过提供新的数据集能够促进对融合视觉和语言的视觉丰富文档的深度理解的研究。
Jul, 2022
针对长篇研究期刊文章等富有文本内容的视觉丰富文档,我们提出了 PDF-MVQA,旨在解决现有研究主要关注稀缺文本的现实世界文档的问题,而在理解多个页面之间的层次语义关系以定位多模态组件方面仍面临挑战。我们的贡献包括介绍了一个全面的 PDF 文档视觉问答数据集,用于研究文本主导文档中的语义层次布局结构。我们还提出了新的视觉丰富文档问答框架,同时考虑文档布局中的文本内容和关系,将页面级别理解扩展到整个多页文档。通过这项工作,我们旨在提高现有视觉和语言模型在处理视觉丰富文档视觉问答时的能力。
Apr, 2024
多页文档视觉问答任务的新方法和有效训练策略,利用视觉特征对文档页进行相关性评分,可在多页场景中提供与最新技术相媲美的性能,且对 GPU 资源需求较少。
Apr, 2024