RoDLA：评估文档布局分析模型的鲁棒性

CVPRMar, 2024

RoDLA：评估文档布局分析模型的鲁棒性

RoDLA: Benchmarking the Robustness of Document Layout Analysis Models

Yufan Chen, Jiaming Zhang, Kunyu Peng, Junwei Zheng, Ruiping Liu...

TL;DR在真实世界应用中开发文档布局分析（DLA）模型之前，进行全面的稳健性测试是必不可少的。然而，DLA 模型的稳健性在文献中仍未得到充分探索。为了解决这个问题，我们首次引入了 DLA 模型的稳健性基准，其中包括三个数据集的 450K 个文档图像。为了涵盖真实世界的破坏，我们提出了一个受真实世界文档处理启发的 36 种常见文档扰动的扰动分类方法。此外，为了更好地理解文档扰动的影响，我们提出了两个指标，即扰动评估的 “Mean Perturbation Effect (mPE)” 和稳健性评估的 “Mean Robustness Degradation (mRD)”。此外，我们引入了一个名为 “Robust Document Layout Analyzer (RoDLA)” 的自命名模型，它改进了注意力机制以提高稳健特征的提取。对所提出的基准 (PubLayNet-P、DocLayNet-P 和 M$^6$Doc-P) 的实验结果表明，RoDLA 的 mRD 得分分别达到了 115.7、135.4 和 150.4，超过了先前方法，在 mAP 上分别取得了 + 3.8%、+7.1% 和 + 12.1% 的显著改进。

Abstract

Before developing a document layout analysis (DLA) model in real-world applications, conducting comprehensive robustness testing is essential. However, the robustness of DLA models remains underexplored in the li

document layout analysis robustness testing perturbation taxonomy mean perturbation effect robust document layout analyzer

发现论文，激发创造

文档布局分析的图形方法

文档布局分析是检测文档中不同的语义内容并正确分类到适当类别（如文本、标题、图表）的任务。本研究采用基于图的布局分析模型（GLAM），将每个 PDF 页面表示为结构化图，并将布局分析问题作为图分割和分类问题进行。与现有模型相比，GLAM 既能在两个具有挑战性的数据集上与现有模型相媲美，又比现有模型小一个数量级。

Aug, 2023

基于 Mask-RCNN 的孟加拉文档布局分析性能增强

理解数字化文档就像解谜游戏，特别是历史文档。文档布局分析（DLA）通过将文档划分为段落、图像和表格等部分来解决这个谜题，这对机器读取和理解这些文档至关重要。本研究针对理解孟加拉语文档进行了工作，使用了一个名为 BaDLAD 的数据集，并使用了特殊的 Mask R-CNN 模型进行训练。通过逐步调整超参数，我们改进了模型，并取得了良好的 Dice 分数 0.889。然而，并非一切顺利，我们尝试使用对英文文档训练的模型，但它不适用于孟加拉语。这向我们展示了每种语言都有其自身的挑战。我们在 DL Sprint 2.0 方案的解决方案公开可用，链接位于 https URL，并附带笔记本、权重和推断笔记本。

Aug, 2023

公共事务领域的文档布局标注：数据库和基准

本文介绍了一种用于半自动标注数字文档的过程，收集公共事务领域的新数据库，其中包括来自西班牙管理层的 24 个数据源。使用本文提出的文本标注程序可实现高达 99％的准确性。

Jun, 2023

Detectron2 上的孟加拉文档布局分析

我们通过使用 Detectron2 库中的先进 Mask R-CNN 模型改进了 Bengali 文档的 DLA 模型的准确性，评估了三种变体，结果表明这些模型在准确分割 Bengali 文档方面非常有效，同时我们强调了预训练权重的重要性，拓展了 Mask R-CNN 在文档布局分析、高效文档管理和 OCR 研究中的适用性，并提出了未来微调和数据增强的发展方向。

Aug, 2023

DLAFormer：文档布局分析的端到端 Transformer

本文介绍了一种名为 DLAFormer 的基于 Transformer 的文档布局分析方法，将各个子任务整合到一个模型中，利用统一的关系预测模块同时处理多个任务，并引入一组类型化查询来增强 DET 的内容查询的物理意义，采用粗细策略准确识别图形页对象。实验证明，DLAFormer 在两个文档布局分析基准数据集 DocLayNet 和 Comp-HRDoc 上胜过先前采用多分支或多阶段架构的方法。

May, 2024

DALA：一种基于分布感知的 LoRA 方法对抗预训练语言模型

通过考虑对抗样本的分布变化以提高检测方法下的攻击效果，我们提出了一种分布感知的 DALA 对抗攻击方法，并设计了一个评价指标 NASR，结合 ASR 和检测，验证 DALA 生成的对抗样本在 BERT 和 LLaMA2-7b 模型上的攻击效果。

Nov, 2023

基于 MViTv2 的 BaDLAD 数据集的文档布局分析方法

在数字化快速发展的时代，文档布局的分析在自动化信息提取和解释中起着重要作用。通过在 BaDLAD 数据集上训练 MViTv2 转换器模型架构与级联掩膜 R-CNN，我们从文档中提取了文本框、段落、图像和表格。通过对 20365 个文档图像进行 36 个周期的训练，在 3 个阶段的循环中，我们取得了 0.2125 的训练损失和 0.19 的掩膜损失。同时，我们还探讨了旋转和翻转增强、在推理前对输入图像进行切片、改变转换器主干的分辨率以及使用双通道推理来发现遗漏的文本框等潜在的增强方法。通过这些探索，我们观察到一系列结果，一些修改带来了实质性的性能改进，而其他的修改为未来的努力提供了独特的见解。

Aug, 2023

语音识别中语言建模的低秩适应的训练策略和模型鲁棒性研究探究

使用低秩适应（LoRA）和预训练语言模型（PLMs）的方法已成为一种流行的资源高效性建模方法，本研究首先探讨了通过引入各种 LoRA 培训策略来提高模型性能，相对词错误率减少了 3.50％和 3.67％，并且进一步检验了 LoRA 基于二次通过语音识别模型的稳定性和对输入扰动的鲁棒性。

Jan, 2024

面向嘈杂标注下的鲁棒自适应目标检测

本研究提出一种面向带有噪声注释的领域自适应目标检测（DAOD）的框架，包括潜在实例挖掘、可变形图关系模块和熵感知梯度协调等关键技术，将语义信息纳入学习过程，取得了不错的实验成果。

Apr, 2022

PRoA：一种针对功能扰动的概率稳健性评估方法

本文提出一种新的概率鲁棒性评估方法 (PR0A)，用于测量深度学习模型对功能扰动的鲁棒性，可以提供模型失败的概率性保证。该方法在实际中具有较高的效力和灵活性，并且相比于已有的基准线，它可以与各种大规模深度神经网络进行良好的扩展。

Jul, 2022