文档图像中的文档布局分析的混合方法

Apr, 2024

文档图像中的文档布局分析的混合方法

A Hybrid Approach for Document Layout Analysis in Document images

Tahira Shehzadi, Didier Stricker, Muhammad Zeshan Afzal

TL;DR这篇论文探讨了文档布局分析，使用先进的基于 Transformer 的对象检测网络作为创新的图形页面对象检测器，以识别表格、图形和展示元素。通过引入查询编码机制，提供高质量的对象查询进行对比学习，增强了解码器阶段的效率。同时，本方法采用混合匹配方案，在训练阶段将解码器的一对一匹配策略与一对多匹配策略相结合，旨在提高模型在页面上检测各种图形元素的准确性和通用性。实验结果表明，该方法在 PubLayNet、DocLayNet 和 PubTables 等基准测试上的表现超过了现有的最先进方法，PubLayNet 的平均精度为 97.3%，DocLayNet 的精度为 81.6%，PubTables 的精度为 98.6%，证明了其在布局分析方面的优越性能。这些进步不仅提高了将文档图片转换为可编辑和可访问格式的能力，还简化了信息检索和数据提取过程。

Abstract

document layout analysis involves understanding the arrangement of elements within a document. This paper navigates the complexities of understanding various elements within document images, such as text, images,

document layout analysis transformer-based object detection contrastive learning graphical elements layout analysis

发现论文，激发创造

通过布局结构建模增强视觉丰富文档的理解

我们提出了 GraphLayoutLM 模型，它利用布局结构图的建模将文档布局知识注入模型，使得模型能够理解文本元素的空间排列，以提高文档的理解能力，并在 FUNSD、XFUND 和 CORD 等基准测试中取得了最先进的结果。

Aug, 2023

PubLayNet：有史以来最大的文档布局分析数据集

本文提出了 PubLayNet 数据集用于文档布局分析，并证明基于该数据集的深度神经网络模型可以准确地识别科学文章的布局。

Aug, 2019

文档布局分析的图形方法

文档布局分析是检测文档中不同的语义内容并正确分类到适当类别（如文本、标题、图表）的任务。本研究采用基于图的布局分析模型（GLAM），将每个 PDF 页面表示为结构化图，并将布局分析问题作为图分割和分类问题进行。与现有模型相比，GLAM 既能在两个具有挑战性的数据集上与现有模型相媲美，又比现有模型小一个数量级。

Aug, 2023

无监督文档布局分析

通过基于视觉的方法，本研究利用未标记的网络文档图像生成简单的对象掩码，通过无监督训练迭代持续改进该模型的性能，从而显著提高文档布局分析的准确性和效率。

Jun, 2024

基于 MViTv2 的 BaDLAD 数据集的文档布局分析方法

在数字化快速发展的时代，文档布局的分析在自动化信息提取和解释中起着重要作用。通过在 BaDLAD 数据集上训练 MViTv2 转换器模型架构与级联掩膜 R-CNN，我们从文档中提取了文本框、段落、图像和表格。通过对 20365 个文档图像进行 36 个周期的训练，在 3 个阶段的循环中，我们取得了 0.2125 的训练损失和 0.19 的掩膜损失。同时，我们还探讨了旋转和翻转增强、在推理前对输入图像进行切片、改变转换器主干的分辨率以及使用双通道推理来发现遗漏的文本框等潜在的增强方法。通过这些探索，我们观察到一系列结果，一些修改带来了实质性的性能改进，而其他的修改为未来的努力提供了独特的见解。

Aug, 2023

RanLayNet：一种用于领域自适应和泛化的文档布局检测数据集

为了解决有限多样性数据集对深度学习模型的影响问题，我们引入了一个包含空间位置、范围和布局元素类型的标签的合成文档数据集 RanLayNet。经过实验证明，使用我们的数据集训练的深度布局识别模型相比仅使用实际文档训练的模型表现更优。此外，我们通过对 Doclaynet 数据集使用 PubLayNet 和 IIIT-AR-13K 数据集的微调模型进行比较分析，发现使用我们的数据集进行增强的模型在科学文档领域的 TABLE 类任务中取得了 0.398 和 0.588 的 mAP95 分数。

Apr, 2024

适用于文档中的表格检测的调制物体查询的端到端半监督方法

本研究提出了一种创新的基于 Transformer 的半监督表格检测器，通过结合一对一和一对多分配技术的新型匹配策略提高了伪标签质量，在早期阶段显著提高了训练效率，进而确保了更好的伪标签进行进一步训练。该方法在多个基准数据集上进行了全面评估，包括 PubLayNet、ICADR-19 和 TableBank，在 TableBank 和 PubLaynet 数据集上以 30％标签数据实现了 95.7％和 97.9％的 mAP，较之前的半监督表格检测方法分别提升了 7.4 和 7.6 个百分点，结果明确展示了该方法的卓越性能，大幅超过现有所有先进方法。该研究在半监督表格检测方法方面取得了重要进展，为实际文档分析任务提供了更高效准确的解决方案。

May, 2024

Text-Image-Layout Transformer 技术在文档理解中的全面应用

本文介绍了 TILT 神经网络架构，该架构同时学习布局信息、视觉特征和文本语义的自然语言理解方式。与以往的方法不同，我们依赖于一个能够统一涉及自然语言的各种问题的解码器。该架构的核心是一个预训练的编码器 - 解码器 Transformer，其中布局表示为注意力偏差，并与上下文化的视觉信息相结合。我们的新方法在从文档中提取信息并回答需要布局理解的问题（如 DocVQA、CORD、SROIE）方面取得了最先进的结果。同时，我们通过采用端到端模型简化了该过程。

Feb, 2021

基于图像的表格识别：数据、模型和评估

本研究提出了一个基于编码器 - 解码器结构的深度学习模型，用于将表格图像转换为 HTML 代码，并使用一种新的基于 Tree-Edit-Distance 相似度（TEDS）度量方法实现表格识别，实验结果表明所提出的模型在复杂表格识别方面具有优秀的表现。

Nov, 2019

DLAFormer：文档布局分析的端到端 Transformer

本文介绍了一种名为 DLAFormer 的基于 Transformer 的文档布局分析方法，将各个子任务整合到一个模型中，利用统一的关系预测模块同时处理多个任务，并引入一组类型化查询来增强 DET 的内容查询的物理意义，采用粗细策略准确识别图形页对象。实验证明，DLAFormer 在两个文档布局分析基准数据集 DocLayNet 和 Comp-HRDoc 上胜过先前采用多分支或多阶段架构的方法。

May, 2024