Dec, 2023

对视觉丰富文档的基于检测的表格结构识别进行再思考

TL;DR将无结构的表格图像转换为 HTML 序列的表结构识别(TSR)任务经常遇到这样的挑战,并发现现有的基于检测的解决方案存在一些限制,因此比较了两阶段和基于 Transformer 的检测模型,明确了成功的两阶段检测模型的关键设计方面,包括多类问题定义、锚框生成的纵横比和骨干网络的特征生成。通过改进 Cascade R-CNN 模型的这些方面,并应用简单的方法,实现了在 SciTSR、FinTabNet 和 PubTables1M 数据集上针对结构 TEDS 的最新性能提升,分别达到 19.32%、11.56% 和 14.77%。