Apr, 2024

文档图像中的文档布局分析的混合方法

TL;DR这篇论文探讨了文档布局分析,使用先进的基于 Transformer 的对象检测网络作为创新的图形页面对象检测器,以识别表格、图形和展示元素。通过引入查询编码机制,提供高质量的对象查询进行对比学习,增强了解码器阶段的效率。同时,本方法采用混合匹配方案,在训练阶段将解码器的一对一匹配策略与一对多匹配策略相结合,旨在提高模型在页面上检测各种图形元素的准确性和通用性。实验结果表明,该方法在 PubLayNet、DocLayNet 和 PubTables 等基准测试上的表现超过了现有的最先进方法,PubLayNet 的平均精度为 97.3%,DocLayNet 的精度为 81.6%,PubTables 的精度为 98.6%,证明了其在布局分析方面的优越性能。这些进步不仅提高了将文档图片转换为可编辑和可访问格式的能力,还简化了信息检索和数据提取过程。