Detectron2 上的孟加拉文档布局分析

Aug, 2023

Detectron2 上的孟加拉文档布局分析

Bengali Document Layout Analysis with Detectron2

Md Ataullha, Mahedi Hassan Rabby, Mushfiqur Rahman, Tahsina Bintay Azam

TL;DR我们通过使用 Detectron2 库中的先进 Mask R-CNN 模型改进了 Bengali 文档的 DLA 模型的准确性，评估了三种变体，结果表明这些模型在准确分割 Bengali 文档方面非常有效，同时我们强调了预训练权重的重要性，拓展了 Mask R-CNN 在文档布局分析、高效文档管理和 OCR 研究中的适用性，并提出了未来微调和数据增强的发展方向。

Abstract

document digitization is vital for preserving historical records, efficient document management, and advancing OCR (Optical Character Recognition) research. document layout analysis (DLA) involves segmenting docu

document digitization document layout analysis dla model bengali documents mask r-cnn

发现论文，激发创造

基于 Mask-RCNN 的孟加拉文档布局分析性能增强

理解数字化文档就像解谜游戏，特别是历史文档。文档布局分析（DLA）通过将文档划分为段落、图像和表格等部分来解决这个谜题，这对机器读取和理解这些文档至关重要。本研究针对理解孟加拉语文档进行了工作，使用了一个名为 BaDLAD 的数据集，并使用了特殊的 Mask R-CNN 模型进行训练。通过逐步调整超参数，我们改进了模型，并取得了良好的 Dice 分数 0.889。然而，并非一切顺利，我们尝试使用对英文文档训练的模型，但它不适用于孟加拉语。这向我们展示了每种语言都有其自身的挑战。我们在 DL Sprint 2.0 方案的解决方案公开可用，链接位于 https URL，并附带笔记本、权重和推断笔记本。

Aug, 2023

论孟加拉文档布局分析数据集中的框架和模型分析：BaDLAD

本研究通过使用先进的计算机程序 (Detectron2、YOLOv8 和 SAM) 来理解孟加拉文档布局。我们研究了许多不同的孟加拉文档。Detectron2 非常擅长找到和分离文本框和段落等文档的不同部分。YOLOv8 在识别表格和图片方面表现良好。我们还尝试了 SAM，它帮助我们理解棘手的布局。通过比较它们的准确性和速度，我们了解到它们在不同类型的文档中的适用性。我们的研究有助于理解孟加拉文档中的复杂布局，也可以对其他语言有所帮助。

Aug, 2023

基于后处理的孟加拉文档布局分析与 YOLOV8

利用 YOLOv8 模型和创新的后处理技术，本文着重于增强孟加拉文档布局分析（DLA），通过采用数据增强方法解决复杂孟加拉文字符的独特挑战，并通过细致的验证集评估和基于完整数据集的微调来实现准确的元素分割。我们的组合模型结合后处理优于单个基本架构，解决了 BaDLAD 数据集中发现的问题。通过利用这种方法，我们旨在推进孟加拉文档分析，从而提高 OCR 和文档理解，BaDLAD 成为这一努力的基础资源，有助于未来的研究。此外，我们的实验为将新策略纳入已经建立的解决方案提供了关键见解。

Sep, 2023

基于 MViTv2 的 BaDLAD 数据集的文档布局分析方法

在数字化快速发展的时代，文档布局的分析在自动化信息提取和解释中起着重要作用。通过在 BaDLAD 数据集上训练 MViTv2 转换器模型架构与级联掩膜 R-CNN，我们从文档中提取了文本框、段落、图像和表格。通过对 20365 个文档图像进行 36 个周期的训练，在 3 个阶段的循环中，我们取得了 0.2125 的训练损失和 0.19 的掩膜损失。同时，我们还探讨了旋转和翻转增强、在推理前对输入图像进行切片、改变转换器主干的分辨率以及使用双通道推理来发现遗漏的文本框等潜在的增强方法。通过这些探索，我们观察到一系列结果，一些修改带来了实质性的性能改进，而其他的修改为未来的努力提供了独特的见解。

Aug, 2023

稳健的孟加拉文档布局分割无锚模型集合

我们通过利用 YOLOv8 模型的集合，为 Bangla 文档分割的任务设计了一个创新系统。通过图像增强、模型架构和模型集成等技术的应用，我们降低了文档图像的质量来提高模型训练的鲁棒性，并成功展示了将无锚点模型融合以实现 Bangla 文档的稳健布局分割。

Aug, 2023

文档布局分析的图形方法

文档布局分析是检测文档中不同的语义内容并正确分类到适当类别（如文本、标题、图表）的任务。本研究采用基于图的布局分析模型（GLAM），将每个 PDF 页面表示为结构化图，并将布局分析问题作为图分割和分类问题进行。与现有模型相比，GLAM 既能在两个具有挑战性的数据集上与现有模型相媲美，又比现有模型小一个数量级。

Aug, 2023

公共事务领域的文档布局标注：数据库和基准

本文介绍了一种用于半自动标注数字文档的过程，收集公共事务领域的新数据库，其中包括来自西班牙管理层的 24 个数据源。使用本文提出的文本标注程序可实现高达 99％的准确性。

Jun, 2023

DLAFormer：文档布局分析的端到端 Transformer

本文介绍了一种名为 DLAFormer 的基于 Transformer 的文档布局分析方法，将各个子任务整合到一个模型中，利用统一的关系预测模块同时处理多个任务，并引入一组类型化查询来增强 DET 的内容查询的物理意义，采用粗细策略准确识别图形页对象。实验证明，DLAFormer 在两个文档布局分析基准数据集 DocLayNet 和 Comp-HRDoc 上胜过先前采用多分支或多阶段架构的方法。

May, 2024

文档图像中的文档布局分析的混合方法

这篇论文探讨了文档布局分析，使用先进的基于 Transformer 的对象检测网络作为创新的图形页面对象检测器，以识别表格、图形和展示元素。通过引入查询编码机制，提供高质量的对象查询进行对比学习，增强了解码器阶段的效率。同时，本方法采用混合匹配方案，在训练阶段将解码器的一对一匹配策略与一对多匹配策略相结合，旨在提高模型在页面上检测各种图形元素的准确性和通用性。实验结果表明，该方法在 PubLayNet、DocLayNet 和 PubTables 等基准测试上的表现超过了现有的最先进方法，PubLayNet 的平均精度为 97.3%，DocLayNet 的精度为 81.6%，PubTables 的精度为 98.6%，证明了其在布局分析方面的优越性能。这些进步不仅提高了将文档图片转换为可编辑和可访问格式的能力，还简化了信息检索和数据提取过程。

Apr, 2024

专用模型和高级技术提升孟加拉光学字符识别在多样文档类型中的应用

该研究提出了一种具有特殊能力的孟加拉语 OCR 系统，该系统在保留结构、对齐和图像的同时，在重建文档布局方面表现出色。它采用先进的图像和签名检测进行准确提取，并为文字分割提供了专门模型以适应多样化的文档类型，包括计算机排版、凸版印刷、打字机和手写文档。该系统处理静态和动态手写输入，识别各种写作风格。此外，它还能识别孟加拉语中的复合字符。广泛的数据收集工作提供了多样化的语料库，而高级技术组件优化了字符和单词识别。额外的贡献包括图像、标志、签名和表格识别，透视校正，布局重建以及用于高效和可扩展处理的排队模块。该系统在高效准确的文本提取和分析方面表现出色。

Feb, 2024