公共事务领域的文档布局标注:数据库和基准
文档布局分析是检测文档中不同的语义内容并正确分类到适当类别(如文本、标题、图表)的任务。本研究采用基于图的布局分析模型(GLAM),将每个 PDF 页面表示为结构化图,并将布局分析问题作为图分割和分类问题进行。与现有模型相比,GLAM 既能在两个具有挑战性的数据集上与现有模型相媲美,又比现有模型小一个数量级。
Aug, 2023
我们通过使用 Detectron2 库中的先进 Mask R-CNN 模型改进了 Bengali 文档的 DLA 模型的准确性,评估了三种变体,结果表明这些模型在准确分割 Bengali 文档方面非常有效,同时我们强调了预训练权重的重要性,拓展了 Mask R-CNN 在文档布局分析、高效文档管理和 OCR 研究中的适用性,并提出了未来微调和数据增强的发展方向。
Aug, 2023
本文介绍了一种名为 DLAFormer 的基于 Transformer 的文档布局分析方法,将各个子任务整合到一个模型中,利用统一的关系预测模块同时处理多个任务,并引入一组类型化查询来增强 DET 的内容查询的物理意义,采用粗细策略准确识别图形页对象。实验证明,DLAFormer 在两个文档布局分析基准数据集 DocLayNet 和 Comp-HRDoc 上胜过先前采用多分支或多阶段架构的方法。
May, 2024
理解数字化文档就像解谜游戏,特别是历史文档。文档布局分析(DLA)通过将文档划分为段落、图像和表格等部分来解决这个谜题,这对机器读取和理解这些文档至关重要。本研究针对理解孟加拉语文档进行了工作,使用了一个名为 BaDLAD 的数据集,并使用了特殊的 Mask R-CNN 模型进行训练。通过逐步调整超参数,我们改进了模型,并取得了良好的 Dice 分数 0.889。然而,并非一切顺利,我们尝试使用对英文文档训练的模型,但它不适用于孟加拉语。这向我们展示了每种语言都有其自身的挑战。我们在 DL Sprint 2.0 方案的解决方案公开可用,链接位于 https URL,并附带笔记本、权重和推断笔记本。
Aug, 2023
本文介绍了一种名为 $M^{6} Doc$ 的大型多样化文档布局分析数据集和一种基于 transformer 的文档布局分析方法 TransDLANet。该方法采用自适应元素匹配机制和构建分割分支,以更好地匹配真实情况,并且实现更精确的文档图像实例分割,其中 $M^{6} Doc$ 数据集展示了其有效性,并且 TransDLANet 在该数据集上达到了 64.5%的 mAP,该数据集具有多种注释类别的特点。
May, 2023
在真实世界应用中开发文档布局分析(DLA)模型之前,进行全面的稳健性测试是必不可少的。然而,DLA 模型的稳健性在文献中仍未得到充分探索。为了解决这个问题,我们首次引入了 DLA 模型的稳健性基准,其中包括三个数据集的 450K 个文档图像。为了涵盖真实世界的破坏,我们提出了一个受真实世界文档处理启发的 36 种常见文档扰动的扰动分类方法。此外,为了更好地理解文档扰动的影响,我们提出了两个指标,即扰动评估的 “Mean Perturbation Effect (mPE)” 和稳健性评估的 “Mean Robustness Degradation (mRD)”。此外,我们引入了一个名为 “Robust Document Layout Analyzer (RoDLA)” 的自命名模型,它改进了注意力机制以提高稳健特征的提取。对所提出的基准 (PubLayNet-P、DocLayNet-P 和 M$^6$Doc-P) 的实验结果表明,RoDLA 的 mRD 得分分别达到了 115.7、135.4 和 150.4,超过了先前方法,在 mAP 上分别取得了 + 3.8%、+7.1% 和 + 12.1% 的显著改进。
Mar, 2024
本文调查了文件自动化技术的现状,定义和描述了其特点,辨识了学术研究中的最新 DA 架构和技术,以及基于生成式 AI 和大型语言模型的最新进展,为 DA 领域的新研究机会提供了思路。
Aug, 2023
介绍了 U-DIADS-Bib,这是一个独特的、像素精确的、无重叠和无噪声的文档布局分析数据集,并提出了一种创新的、计算机辅助的分割流程,以减轻手工注释的负担,并最后提供了一个标准的少样本数据集 (U-DIADS-BibFS),以鼓励开发能够在尽可能少的样本下解决该任务的模型和解决方案,从而能够在现实世界的场景中更有效地使用。
Jan, 2024