CVPRMar, 2024

RoDLA:评估文档布局分析模型的鲁棒性

TL;DR在真实世界应用中开发文档布局分析(DLA)模型之前,进行全面的稳健性测试是必不可少的。然而,DLA 模型的稳健性在文献中仍未得到充分探索。为了解决这个问题,我们首次引入了 DLA 模型的稳健性基准,其中包括三个数据集的 450K 个文档图像。为了涵盖真实世界的破坏,我们提出了一个受真实世界文档处理启发的 36 种常见文档扰动的扰动分类方法。此外,为了更好地理解文档扰动的影响,我们提出了两个指标,即扰动评估的 “Mean Perturbation Effect (mPE)” 和稳健性评估的 “Mean Robustness Degradation (mRD)”。此外,我们引入了一个名为 “Robust Document Layout Analyzer (RoDLA)” 的自命名模型,它改进了注意力机制以提高稳健特征的提取。对所提出的基准 (PubLayNet-P、DocLayNet-P 和 M$^6$Doc-P) 的实验结果表明,RoDLA 的 mRD 得分分别达到了 115.7、135.4 和 150.4,超过了先前方法,在 mAP 上分别取得了 + 3.8%、+7.1% 和 + 12.1% 的显著改进。