May, 2024

适用于文档中的表格检测的调制物体查询的端到端半监督方法

TL;DR本研究提出了一种创新的基于 Transformer 的半监督表格检测器,通过结合一对一和一对多分配技术的新型匹配策略提高了伪标签质量,在早期阶段显著提高了训练效率,进而确保了更好的伪标签进行进一步训练。该方法在多个基准数据集上进行了全面评估,包括 PubLayNet、ICADR-19 和 TableBank,在 TableBank 和 PubLaynet 数据集上以 30%标签数据实现了 95.7%和 97.9%的 mAP,较之前的半监督表格检测方法分别提升了 7.4 和 7.6 个百分点,结果明确展示了该方法的卓越性能,大幅超过现有所有先进方法。该研究在半监督表格检测方法方面取得了重要进展,为实际文档分析任务提供了更高效准确的解决方案。