文档布局分析的图形方法

Aug, 2023

A Graphical Approach to Document Layout Analysis

Jilin Wang, Michael Krumdick, Baojia Tong, Hamima Halim, Maxim Sokolov...

TL;DR文档布局分析是检测文档中不同的语义内容并正确分类到适当类别（如文本、标题、图表）的任务。本研究采用基于图的布局分析模型（GLAM），将每个 PDF 页面表示为结构化图，并将布局分析问题作为图分割和分类问题进行。与现有模型相比，GLAM 既能在两个具有挑战性的数据集上与现有模型相媲美，又比现有模型小一个数量级。

Abstract

document layout analysis (dla) is the task of detecting the distinct, semantic content within a document and correctly classifying these items into an appropriate category (e.g., text, title, figure).

document layout analysis dla graph-based layout analysis model glam computer vision-based model

发现论文，激发创造

公共事务领域的文档布局标注：数据库和基准

本文介绍了一种用于半自动标注数字文档的过程，收集公共事务领域的新数据库，其中包括来自西班牙管理层的 24 个数据源。使用本文提出的文本标注程序可实现高达 99％的准确性。

Jun, 2023

DLAFormer：文档布局分析的端到端 Transformer

本文介绍了一种名为 DLAFormer 的基于 Transformer 的文档布局分析方法，将各个子任务整合到一个模型中，利用统一的关系预测模块同时处理多个任务，并引入一组类型化查询来增强 DET 的内容查询的物理意义，采用粗细策略准确识别图形页对象。实验证明，DLAFormer 在两个文档布局分析基准数据集 DocLayNet 和 Comp-HRDoc 上胜过先前采用多分支或多阶段架构的方法。

May, 2024

无监督文档布局分析

通过基于视觉的方法，本研究利用未标记的网络文档图像生成简单的对象掩码，通过无监督训练迭代持续改进该模型的性能，从而显著提高文档布局分析的准确性和效率。

Jun, 2024

Detectron2 上的孟加拉文档布局分析

我们通过使用 Detectron2 库中的先进 Mask R-CNN 模型改进了 Bengali 文档的 DLA 模型的准确性，评估了三种变体，结果表明这些模型在准确分割 Bengali 文档方面非常有效，同时我们强调了预训练权重的重要性，拓展了 Mask R-CNN 在文档布局分析、高效文档管理和 OCR 研究中的适用性，并提出了未来微调和数据增强的发展方向。

Aug, 2023

基于 Mask-RCNN 的孟加拉文档布局分析性能增强

理解数字化文档就像解谜游戏，特别是历史文档。文档布局分析（DLA）通过将文档划分为段落、图像和表格等部分来解决这个谜题，这对机器读取和理解这些文档至关重要。本研究针对理解孟加拉语文档进行了工作，使用了一个名为 BaDLAD 的数据集，并使用了特殊的 Mask R-CNN 模型进行训练。通过逐步调整超参数，我们改进了模型，并取得了良好的 Dice 分数 0.889。然而，并非一切顺利，我们尝试使用对英文文档训练的模型，但它不适用于孟加拉语。这向我们展示了每种语言都有其自身的挑战。我们在 DL Sprint 2.0 方案的解决方案公开可用，链接位于 https URL，并附带笔记本、权重和推断笔记本。

Aug, 2023

文档图像中的文档布局分析的混合方法

这篇论文探讨了文档布局分析，使用先进的基于 Transformer 的对象检测网络作为创新的图形页面对象检测器，以识别表格、图形和展示元素。通过引入查询编码机制，提供高质量的对象查询进行对比学习，增强了解码器阶段的效率。同时，本方法采用混合匹配方案，在训练阶段将解码器的一对一匹配策略与一对多匹配策略相结合，旨在提高模型在页面上检测各种图形元素的准确性和通用性。实验结果表明，该方法在 PubLayNet、DocLayNet 和 PubTables 等基准测试上的表现超过了现有的最先进方法，PubLayNet 的平均精度为 97.3%，DocLayNet 的精度为 81.6%，PubTables 的精度为 98.6%，证明了其在布局分析方面的优越性能。这些进步不仅提高了将文档图片转换为可编辑和可访问格式的能力，还简化了信息检索和数据提取过程。

Apr, 2024

文档布局分析的视觉网格变换器

本文介绍了 VGT 模型，它是一种双流视觉格点变换器，通过提出并预训练 GiT 来实现 2D 令牌级和段级语义理解，利用多模态信息和预训练技术为文档布局分析学习更好的表示。此外，还通过 D$^4$LA 数据集，在文档布局分析中达到了最新的最佳性能。

Aug, 2023

RoDLA：评估文档布局分析模型的鲁棒性

在真实世界应用中开发文档布局分析（DLA）模型之前，进行全面的稳健性测试是必不可少的。然而，DLA 模型的稳健性在文献中仍未得到充分探索。为了解决这个问题，我们首次引入了 DLA 模型的稳健性基准，其中包括三个数据集的 450K 个文档图像。为了涵盖真实世界的破坏，我们提出了一个受真实世界文档处理启发的 36 种常见文档扰动的扰动分类方法。此外，为了更好地理解文档扰动的影响，我们提出了两个指标，即扰动评估的 “Mean Perturbation Effect (mPE)” 和稳健性评估的 “Mean Robustness Degradation (mRD)”。此外，我们引入了一个名为 “Robust Document Layout Analyzer (RoDLA)” 的自命名模型，它改进了注意力机制以提高稳健特征的提取。对所提出的基准 (PubLayNet-P、DocLayNet-P 和 M$^6$Doc-P) 的实验结果表明，RoDLA 的 mRD 得分分别达到了 115.7、135.4 和 150.4，超过了先前方法，在 mAP 上分别取得了 + 3.8%、+7.1% 和 + 12.1% 的显著改进。

Mar, 2024

Doc-GCN: 面向文档布局分析的异构图卷积网络

我们提出了一种新的文档布局分析方法，即 Doc-GCN ，该方法通过构建图形来描述文档的固有特征并将这些信息应用于图卷积网络中。最终结果表明，我们的方法在三个常用的 DLA 数据集中取得了新的最佳结果。

Aug, 2022

论孟加拉文档布局分析数据集中的框架和模型分析：BaDLAD

本研究通过使用先进的计算机程序 (Detectron2、YOLOv8 和 SAM) 来理解孟加拉文档布局。我们研究了许多不同的孟加拉文档。Detectron2 非常擅长找到和分离文本框和段落等文档的不同部分。YOLOv8 在识别表格和图片方面表现良好。我们还尝试了 SAM，它帮助我们理解棘手的布局。通过比较它们的准确性和速度，我们了解到它们在不同类型的文档中的适用性。我们的研究有助于理解孟加拉文档中的复杂布局，也可以对其他语言有所帮助。

Aug, 2023