无监督文档布局分析
文档布局分析是检测文档中不同的语义内容并正确分类到适当类别(如文本、标题、图表)的任务。本研究采用基于图的布局分析模型(GLAM),将每个 PDF 页面表示为结构化图,并将布局分析问题作为图分割和分类问题进行。与现有模型相比,GLAM 既能在两个具有挑战性的数据集上与现有模型相媲美,又比现有模型小一个数量级。
Aug, 2023
本文介绍了一种用于半自动标注数字文档的过程,收集公共事务领域的新数据库,其中包括来自西班牙管理层的 24 个数据源。使用本文提出的文本标注程序可实现高达 99%的准确性。
Jun, 2023
本文提出了一种高效的 few-shot 学习框架,通过在公开数据集 DIVA-HisDB 上的试验,表明该框架的性能可与当前最先进的完全监督方法媲美,有效地解决了在古代手写文献分析中像素精确的文本标注是一项耗时的过程,而这种信息在现实世界中很少可用的问题。
Oct, 2022
使用自我监督技术,将文档图像中的伪造布局用于预先训练图像编码器,以在无监督的框架内学习文档对象的表示和定位,然后使用目标检测模型进行微调,该流水线在文档布局分析中表现卓越。
May, 2023
这篇论文探讨了文档布局分析,使用先进的基于 Transformer 的对象检测网络作为创新的图形页面对象检测器,以识别表格、图形和展示元素。通过引入查询编码机制,提供高质量的对象查询进行对比学习,增强了解码器阶段的效率。同时,本方法采用混合匹配方案,在训练阶段将解码器的一对一匹配策略与一对多匹配策略相结合,旨在提高模型在页面上检测各种图形元素的准确性和通用性。实验结果表明,该方法在 PubLayNet、DocLayNet 和 PubTables 等基准测试上的表现超过了现有的最先进方法,PubLayNet 的平均精度为 97.3%,DocLayNet 的精度为 81.6%,PubTables 的精度为 98.6%,证明了其在布局分析方面的优越性能。这些进步不仅提高了将文档图片转换为可编辑和可访问格式的能力,还简化了信息检索和数据提取过程。
Apr, 2024
本研究使用 YOLOv5 模型来快速识别文档布局并提取非结构化数据,为解决处理非结构化数据的问题建立了概念框架并展示了其显著的性能,从而提高了数据提取的效率。
Sep, 2023
本文介绍了一种名为 DLAFormer 的基于 Transformer 的文档布局分析方法,将各个子任务整合到一个模型中,利用统一的关系预测模块同时处理多个任务,并引入一组类型化查询来增强 DET 的内容查询的物理意义,采用粗细策略准确识别图形页对象。实验证明,DLAFormer 在两个文档布局分析基准数据集 DocLayNet 和 Comp-HRDoc 上胜过先前采用多分支或多阶段架构的方法。
May, 2024
理解数字化文档就像解谜游戏,特别是历史文档。文档布局分析(DLA)通过将文档划分为段落、图像和表格等部分来解决这个谜题,这对机器读取和理解这些文档至关重要。本研究针对理解孟加拉语文档进行了工作,使用了一个名为 BaDLAD 的数据集,并使用了特殊的 Mask R-CNN 模型进行训练。通过逐步调整超参数,我们改进了模型,并取得了良好的 Dice 分数 0.889。然而,并非一切顺利,我们尝试使用对英文文档训练的模型,但它不适用于孟加拉语。这向我们展示了每种语言都有其自身的挑战。我们在 DL Sprint 2.0 方案的解决方案公开可用,链接位于 https URL,并附带笔记本、权重和推断笔记本。
Aug, 2023
我们通过使用 Detectron2 库中的先进 Mask R-CNN 模型改进了 Bengali 文档的 DLA 模型的准确性,评估了三种变体,结果表明这些模型在准确分割 Bengali 文档方面非常有效,同时我们强调了预训练权重的重要性,拓展了 Mask R-CNN 在文档布局分析、高效文档管理和 OCR 研究中的适用性,并提出了未来微调和数据增强的发展方向。
Aug, 2023
在数字化快速发展的时代,文档布局的分析在自动化信息提取和解释中起着重要作用。通过在 BaDLAD 数据集上训练 MViTv2 转换器模型架构与级联掩膜 R-CNN,我们从文档中提取了文本框、段落、图像和表格。通过对 20365 个文档图像进行 36 个周期的训练,在 3 个阶段的循环中,我们取得了 0.2125 的训练损失和 0.19 的掩膜损失。同时,我们还探讨了旋转和翻转增强、在推理前对输入图像进行切片、改变转换器主干的分辨率以及使用双通道推理来发现遗漏的文本框等潜在的增强方法。通过这些探索,我们观察到一系列结果,一些修改带来了实质性的性能改进,而其他的修改为未来的努力提供了独特的见解。
Aug, 2023