公共事务领域的文档布局标注：数据库和基准

Jun, 2023

公共事务领域的文档布局标注：数据库和基准

Document Layout Annotation: Database and Benchmark in the Domain of Public Affairs

Alejandro Peña, Aythami Morales, Julian Fierrez, Javier Ortega-Garcia, Marcos Grande...

TL;DR本文介绍了一种用于半自动标注数字文档的过程，收集公共事务领域的新数据库，其中包括来自西班牙管理层的 24 个数据源。使用本文提出的文本标注程序可实现高达 99％的准确性。

Abstract

Every day, thousands of digital documents are generated with useful information for companies, public organizations, and citizens. Given the impossibility of processing them manually, the automatic processing of

document layout analysis digital documents automatic processing layout labels public affairs

发现论文，激发创造

文档布局分析的图形方法

文档布局分析是检测文档中不同的语义内容并正确分类到适当类别（如文本、标题、图表）的任务。本研究采用基于图的布局分析模型（GLAM），将每个 PDF 页面表示为结构化图，并将布局分析问题作为图分割和分类问题进行。与现有模型相比，GLAM 既能在两个具有挑战性的数据集上与现有模型相媲美，又比现有模型小一个数量级。

Aug, 2023

无监督文档布局分析

通过基于视觉的方法，本研究利用未标记的网络文档图像生成简单的对象掩码，通过无监督训练迭代持续改进该模型的性能，从而显著提高文档布局分析的准确性和效率。

Jun, 2024

Detectron2 上的孟加拉文档布局分析

我们通过使用 Detectron2 库中的先进 Mask R-CNN 模型改进了 Bengali 文档的 DLA 模型的准确性，评估了三种变体，结果表明这些模型在准确分割 Bengali 文档方面非常有效，同时我们强调了预训练权重的重要性，拓展了 Mask R-CNN 在文档布局分析、高效文档管理和 OCR 研究中的适用性，并提出了未来微调和数据增强的发展方向。

Aug, 2023

DLAFormer：文档布局分析的端到端 Transformer

本文介绍了一种名为 DLAFormer 的基于 Transformer 的文档布局分析方法，将各个子任务整合到一个模型中，利用统一的关系预测模块同时处理多个任务，并引入一组类型化查询来增强 DET 的内容查询的物理意义，采用粗细策略准确识别图形页对象。实验证明，DLAFormer 在两个文档布局分析基准数据集 DocLayNet 和 Comp-HRDoc 上胜过先前采用多分支或多阶段架构的方法。

May, 2024

基于 Mask-RCNN 的孟加拉文档布局分析性能增强

理解数字化文档就像解谜游戏，特别是历史文档。文档布局分析（DLA）通过将文档划分为段落、图像和表格等部分来解决这个谜题，这对机器读取和理解这些文档至关重要。本研究针对理解孟加拉语文档进行了工作，使用了一个名为 BaDLAD 的数据集，并使用了特殊的 Mask R-CNN 模型进行训练。通过逐步调整超参数，我们改进了模型，并取得了良好的 Dice 分数 0.889。然而，并非一切顺利，我们尝试使用对英文文档训练的模型，但它不适用于孟加拉语。这向我们展示了每种语言都有其自身的挑战。我们在 DL Sprint 2.0 方案的解决方案公开可用，链接位于 https URL，并附带笔记本、权重和推断笔记本。

Aug, 2023

M$^{6}$Doc：现代文档布局分析的大规模多格式、多类型、多布局、多语言、多注释类别数据集

本文介绍了一种名为 $M^{6} Doc$ 的大型多样化文档布局分析数据集和一种基于 transformer 的文档布局分析方法 TransDLANet。该方法采用自适应元素匹配机制和构建分割分支，以更好地匹配真实情况，并且实现更精确的文档图像实例分割，其中 $M^{6} Doc$ 数据集展示了其有效性，并且 TransDLANet 在该数据集上达到了 64.5％的 mAP，该数据集具有多种注释类别的特点。

May, 2023

RoDLA：评估文档布局分析模型的鲁棒性

在真实世界应用中开发文档布局分析（DLA）模型之前，进行全面的稳健性测试是必不可少的。然而，DLA 模型的稳健性在文献中仍未得到充分探索。为了解决这个问题，我们首次引入了 DLA 模型的稳健性基准，其中包括三个数据集的 450K 个文档图像。为了涵盖真实世界的破坏，我们提出了一个受真实世界文档处理启发的 36 种常见文档扰动的扰动分类方法。此外，为了更好地理解文档扰动的影响，我们提出了两个指标，即扰动评估的 “Mean Perturbation Effect (mPE)” 和稳健性评估的 “Mean Robustness Degradation (mRD)”。此外，我们引入了一个名为 “Robust Document Layout Analyzer (RoDLA)” 的自命名模型，它改进了注意力机制以提高稳健特征的提取。对所提出的基准 (PubLayNet-P、DocLayNet-P 和 M$^6$Doc-P) 的实验结果表明，RoDLA 的 mRD 得分分别达到了 115.7、135.4 和 150.4，超过了先前方法，在 mAP 上分别取得了 + 3.8%、+7.1% 和 + 12.1% 的显著改进。

Mar, 2024

文件自动化架构：大型语言模型的最新调查

本文调查了文件自动化技术的现状，定义和描述了其特点，辨识了学术研究中的最新 DA 架构和技术，以及基于生成式 AI 和大型语言模型的最新进展，为 DA 领域的新研究机会提供了思路。

Aug, 2023

PubLayNet：有史以来最大的文档布局分析数据集

本文提出了 PubLayNet 数据集用于文档布局分析，并证明基于该数据集的深度神经网络模型可以准确地识别科学文章的布局。

Aug, 2019

U-DIADS-Bib：古代手稿文档布局分析的全面和少样本像素精确数据集

介绍了 U-DIADS-Bib，这是一个独特的、像素精确的、无重叠和无噪声的文档布局分析数据集，并提出了一种创新的、计算机辅助的分割流程，以减轻手工注释的负担，并最后提供了一个标准的少样本数据集 (U-DIADS-BibFS)，以鼓励开发能够在尽可能少的样本下解决该任务的模型和解决方案，从而能够在现实世界的场景中更有效地使用。

Jan, 2024