Aug, 2023

基于 MViTv2 的 BaDLAD 数据集的文档布局分析方法

TL;DR在数字化快速发展的时代,文档布局的分析在自动化信息提取和解释中起着重要作用。通过在 BaDLAD 数据集上训练 MViTv2 转换器模型架构与级联掩膜 R-CNN,我们从文档中提取了文本框、段落、图像和表格。通过对 20365 个文档图像进行 36 个周期的训练,在 3 个阶段的循环中,我们取得了 0.2125 的训练损失和 0.19 的掩膜损失。同时,我们还探讨了旋转和翻转增强、在推理前对输入图像进行切片、改变转换器主干的分辨率以及使用双通道推理来发现遗漏的文本框等潜在的增强方法。通过这些探索,我们观察到一系列结果,一些修改带来了实质性的性能改进,而其他的修改为未来的努力提供了独特的见解。