基于 MViTv2 的 BaDLAD 数据集的文档布局分析方法

Aug, 2023

基于 MViTv2 的 BaDLAD 数据集的文档布局分析方法

Document Layout Analysis on BaDLAD Dataset: A Comprehensive MViTv2 Based Approach

Ashrafur Rahman Khan, Asif Azad

TL;DR在数字化快速发展的时代，文档布局的分析在自动化信息提取和解释中起着重要作用。通过在 BaDLAD 数据集上训练 MViTv2 转换器模型架构与级联掩膜 R-CNN，我们从文档中提取了文本框、段落、图像和表格。通过对 20365 个文档图像进行 36 个周期的训练，在 3 个阶段的循环中，我们取得了 0.2125 的训练损失和 0.19 的掩膜损失。同时，我们还探讨了旋转和翻转增强、在推理前对输入图像进行切片、改变转换器主干的分辨率以及使用双通道推理来发现遗漏的文本框等潜在的增强方法。通过这些探索，我们观察到一系列结果，一些修改带来了实质性的性能改进，而其他的修改为未来的努力提供了独特的见解。

Abstract

In the rapidly evolving digital era, the analysis of document layouts plays a pivotal role in automated information extraction and interpretation. In our work, we have trained →

document layouts automated information extraction mvitv2 transformer model badlad dataset enhancement avenues

发现论文，激发创造

基于 Mask-RCNN 的孟加拉文档布局分析性能增强

理解数字化文档就像解谜游戏，特别是历史文档。文档布局分析（DLA）通过将文档划分为段落、图像和表格等部分来解决这个谜题，这对机器读取和理解这些文档至关重要。本研究针对理解孟加拉语文档进行了工作，使用了一个名为 BaDLAD 的数据集，并使用了特殊的 Mask R-CNN 模型进行训练。通过逐步调整超参数，我们改进了模型，并取得了良好的 Dice 分数 0.889。然而，并非一切顺利，我们尝试使用对英文文档训练的模型，但它不适用于孟加拉语。这向我们展示了每种语言都有其自身的挑战。我们在 DL Sprint 2.0 方案的解决方案公开可用，链接位于 https URL，并附带笔记本、权重和推断笔记本。

Aug, 2023

Detectron2 上的孟加拉文档布局分析

我们通过使用 Detectron2 库中的先进 Mask R-CNN 模型改进了 Bengali 文档的 DLA 模型的准确性，评估了三种变体，结果表明这些模型在准确分割 Bengali 文档方面非常有效，同时我们强调了预训练权重的重要性，拓展了 Mask R-CNN 在文档布局分析、高效文档管理和 OCR 研究中的适用性，并提出了未来微调和数据增强的发展方向。

Aug, 2023

论孟加拉文档布局分析数据集中的框架和模型分析：BaDLAD

本研究通过使用先进的计算机程序 (Detectron2、YOLOv8 和 SAM) 来理解孟加拉文档布局。我们研究了许多不同的孟加拉文档。Detectron2 非常擅长找到和分离文本框和段落等文档的不同部分。YOLOv8 在识别表格和图片方面表现良好。我们还尝试了 SAM，它帮助我们理解棘手的布局。通过比较它们的准确性和速度，我们了解到它们在不同类型的文档中的适用性。我们的研究有助于理解孟加拉文档中的复杂布局，也可以对其他语言有所帮助。

Aug, 2023

文档图像中的文档布局分析的混合方法

这篇论文探讨了文档布局分析，使用先进的基于 Transformer 的对象检测网络作为创新的图形页面对象检测器，以识别表格、图形和展示元素。通过引入查询编码机制，提供高质量的对象查询进行对比学习，增强了解码器阶段的效率。同时，本方法采用混合匹配方案，在训练阶段将解码器的一对一匹配策略与一对多匹配策略相结合，旨在提高模型在页面上检测各种图形元素的准确性和通用性。实验结果表明，该方法在 PubLayNet、DocLayNet 和 PubTables 等基准测试上的表现超过了现有的最先进方法，PubLayNet 的平均精度为 97.3%，DocLayNet 的精度为 81.6%，PubTables 的精度为 98.6%，证明了其在布局分析方面的优越性能。这些进步不仅提高了将文档图片转换为可编辑和可访问格式的能力，还简化了信息检索和数据提取过程。

Apr, 2024

LayoutLMv2: 多模态预训练用于视觉丰富的文档理解

LayoutLMv2 提出了一种新的预训练架构，通过在一个多模态框架中建模文本、布局和图像之间的交互以及整合空间感知自注意机制，在预训练阶段更好地捕获跨模态交互，实现在 FUNSD，CORD，SROIE，Kleister-NDA，RVL-CDIP 和 DocVQA 等下游视觉丰富的文档理解任务上新的最先进结果。

Dec, 2020

LayoutMask：以多模态预训练增强文档理解中的文本布局交互

本论文旨在改进文本布局交互，提出了一种新的多模态预训练模型 LayoutMask，该模型使用本地 1D 位置作为布局输入，并具有两个预训练目标：掩码语言建模和掩码位置建模，LayoutMask 可以增强文本和布局模态之间的交互，并为下游任务生成自适应和鲁棒的多模态表示。

May, 2023

文档布局分析的视觉网格变换器

本文介绍了 VGT 模型，它是一种双流视觉格点变换器，通过提出并预训练 GiT 来实现 2D 令牌级和段级语义理解，利用多模态信息和预训练技术为文档布局分析学习更好的表示。此外，还通过 D$^4$LA 数据集，在文档布局分析中达到了最新的最佳性能。

Aug, 2023

基于后处理的孟加拉文档布局分析与 YOLOV8

利用 YOLOv8 模型和创新的后处理技术，本文着重于增强孟加拉文档布局分析（DLA），通过采用数据增强方法解决复杂孟加拉文字符的独特挑战，并通过细致的验证集评估和基于完整数据集的微调来实现准确的元素分割。我们的组合模型结合后处理优于单个基本架构，解决了 BaDLAD 数据集中发现的问题。通过利用这种方法，我们旨在推进孟加拉文档分析，从而提高 OCR 和文档理解，BaDLAD 成为这一努力的基础资源，有助于未来的研究。此外，我们的实验为将新策略纳入已经建立的解决方案提供了关键见解。

Sep, 2023

无监督文档布局分析

通过基于视觉的方法，本研究利用未标记的网络文档图像生成简单的对象掩码，通过无监督训练迭代持续改进该模型的性能，从而显著提高文档布局分析的准确性和效率。

Jun, 2024

LayoutLMv3: 统一文本和图片遮盖的文档 AI 预训练

本文提出的 LayoutLMv3 是一种用于文档人工智能的多模态 Transformer 的预训练方法，用于统一文本和图像遮蔽，并通过预测文本单词的对应图像块是否被遮蔽的方式进行跨模态对齐。实验结果表明，LayoutLMv3 不仅在文本中心任务中实现了最先进的性能，而且在以图像为中心的任务中也是如此。

Apr, 2022