DocBank: 一个文档布局分析基准数据集

COLINGJun, 2020

DocBank: 一个文档布局分析基准数据集

DocBank: A Benchmark Dataset for Document Layout Analysis

Minghao Li, Yiheng Xu, Lei Cui, Shaohan Huang, Furu Wei...

TL;DR本文介绍了 DocBank，一个包含 500K 篇文档页面的基准数据集，其中包含细粒度的令牌级别的注释，用于文档布局分析的多模态方法的性能提高研究。实验结果表明，使用 DocBank 训练出的模型可以准确识别各种不同类型的文档的布局信息。

Abstract

document layout analysis usually relies on computer vision models to understand documents while ignoring textual information that is vital to capture. Meanwhile, high quality labeled datasets with both visual and

document layout analysis textual information docbank fine-grained annotations multi-modal approaches

发现论文，激发创造

TableBank: 一份用于表格检测和识别的基准数据集

TableBank 使用 Word 和 Latex 文档的弱监督，构建了一个新的基于图像的表格检测和识别数据集。该数据集包含 417K 个高质量标记的表格，并利用深度神经网络构建了多个强基线模型，旨在为表格检测和识别任务提供更多的深度学习方法。

Mar, 2019

M$^{6}$Doc：现代文档布局分析的大规模多格式、多类型、多布局、多语言、多注释类别数据集

本文介绍了一种名为 $M^{6} Doc$ 的大型多样化文档布局分析数据集和一种基于 transformer 的文档布局分析方法 TransDLANet。该方法采用自适应元素匹配机制和构建分割分支，以更好地匹配真实情况，并且实现更精确的文档图像实例分割，其中 $M^{6} Doc$ 数据集展示了其有效性，并且 TransDLANet 在该数据集上达到了 64.5％的 mAP，该数据集具有多种注释类别的特点。

May, 2023

PubLayNet：有史以来最大的文档布局分析数据集

本文提出了 PubLayNet 数据集用于文档布局分析，并证明基于该数据集的深度神经网络模型可以准确地识别科学文章的布局。

Aug, 2019

具有复杂布局的历史日本文件大型数据集

本文介绍了一种使用 HJDataset 的深度学习方法，可以准确地分析历史日文文档的布局并提取内容。该数据集包含 250,000 多个布局元素注释和基于半规则的方法构建，旨在提供深度学习模型的基准性能分析。

Apr, 2020

U-DIADS-Bib：古代手稿文档布局分析的全面和少样本像素精确数据集

介绍了 U-DIADS-Bib，这是一个独特的、像素精确的、无重叠和无噪声的文档布局分析数据集，并提出了一种创新的、计算机辅助的分割流程，以减轻手工注释的负担，并最后提供了一个标准的少样本数据集 (U-DIADS-BibFS)，以鼓励开发能够在尽可能少的样本下解决该任务的模型和解决方案，从而能够在现实世界的场景中更有效地使用。

Jan, 2024

DocILE 文件信息定位与提取基准测试

本文介绍了 DocILE 数据集及其应用，它包括 6.7K 个注释的商业文件、100K 个合成文件和近 1M 个未标记的文件，旨在为关键信息定位和提取以及行项目识别等任务提供基准，并提供了几个基线模型，包括 RoBERTa、LayoutLMv3 和 DETR-based Table Transformer。

Feb, 2023

DocGenome：用于训练和测试多模态大型语言模型的开放式大规模科学文档基准

通过提取自科学文档中的多模态数据，并评估大型模型处理科学文档任务的能力，对科学文档记录的研究发现和有价值的人类知识进行综合性的数据分析是有意义的。我们介绍了 DocGenome，这是一个结构化文档基准，通过我们的自定义自动标注流水线对 arXiv 开放访问社区中的 153 个学科的 50 万份科学文档进行注释，它具有完整性、逻辑性、多样性和正确性等四个关键特征。我们进行广泛的实验证明了 DocGenome 的优势，并客观评估了大型模型在我们的基准上的性能。

Jun, 2024

公共事务领域的文档布局标注：数据库和基准

本文介绍了一种用于半自动标注数字文档的过程，收集公共事务领域的新数据库，其中包括来自西班牙管理层的 24 个数据源。使用本文提出的文本标注程序可实现高达 99％的准确性。

Jun, 2023

基于布局的文档驱动对话信息提取：数据集、方法和演示

该研究构建了基于文档的对话系统，旨在从视觉丰富的文档（VRD）中提取结构和语义知识，以生成准确的回复，为此创建了一个布局感知的文档级信息提取数据集 LIE，并开发了基准方法考虑人类的布局特征，实验结果表明布局对基于 VRD 的提取至关重要，系统演示也验证了提取的知识能够帮助用户找到关心的答案。LIE 包含来自产品和官方文档中 4,061 页的 62k 注释，成为我们所知最大的基于 VRD 的信息提取数据集。

Jul, 2022

银行流程自动化的多模态文档分析

本研究旨在通过理解先进的文档分析技术，特别是多模态模型，在银行业务的操作效率提升和应对金融科技竞争方面的潜力。通过综合分析多样化的银行文件环境，我们展示了通过自动化和高级分析技术在客户业务中提高效率的机会。借助自然语言处理领域的快速发展，我们阐明了在银行业领域分析各种文件的 LayoutXLM 等模型潜力。该模型可对德国公司注册文件进行文本标记分类，整体 F1 得分约为 80%。我们的实证证据证实了布局信息在提高模型性能方面的关键作用，并进一步强调了整合图像信息的好处。有趣的是，我们的研究表明，仅使用 30% 的训练数据就可以达到超过 75% 的 F1 得分，证明了 LayoutXLM 的高效性。通过解决最先进的文档分析框架，我们的研究旨在提高流程效率，展示多模态模型在银行业务中的实际适用性和好处。

Jul, 2023