Feb, 2024

ClusterTabNet:用于表格检测和表格结构识别的有监督聚类方法

TL;DR我们提出了一种新颖的基于深度学习的方法来对文档中的单词进行聚类, 并应用于检测和识别 OCR 输出中的表格。我们将表的结构从底部向上解释为单词之间的关系图(属于同一行,列,标题以及同一张表),并使用 Transformer 编码器模型来预测其邻接矩阵。我们在 PubTables-1M 数据集以及 PubTabNet 和 FinTabNet 数据集上展示了我们方法的性能。与当前的最先进的检测方法如 DETR 和 Faster R-CNN 相比,我们的方法在精度上达到了类似或更好的结果,并且要求更小的模型。