Dec, 2023

对视觉丰富文档的基于检测的表格结构识别进行再思考

TL;DR将无结构的表格图像转换为HTML序列的表结构识别(TSR)任务经常遇到这样的挑战,并发现现有的基于检测的解决方案存在一些限制,因此比较了两阶段和基于Transformer的检测模型,明确了成功的两阶段检测模型的关键设计方面,包括多类问题定义、锚框生成的纵横比和骨干网络的特征生成。通过改进Cascade R-CNN模型的这些方面,并应用简单的方法,实现了在SciTSR、FinTabNet和PubTables1M数据集上针对结构TEDS的最新性能提升,分别达到19.32%、11.56%和14.77%。