PubTables-1M: 实现从非结构化文档中全面提取表格
本研究提出了一个基于编码器 - 解码器结构的深度学习模型,用于将表格图像转换为 HTML 代码,并使用一种新的基于 Tree-Edit-Distance 相似度(TEDS)度量方法实现表格识别,实验结果表明所提出的模型在复杂表格识别方面具有优秀的表现。
Nov, 2019
本文提出了一种新的表格结构识别模型,通过引入新的对象检测解码器和基于 transformer 的解码器,能够更准确地提取表格内容并处理各种形式的表格。
Mar, 2022
本研究提出了一种创新的基于 Transformer 的半监督表格检测器,通过结合一对一和一对多分配技术的新型匹配策略提高了伪标签质量,在早期阶段显著提高了训练效率,进而确保了更好的伪标签进行进一步训练。该方法在多个基准数据集上进行了全面评估,包括 PubLayNet、ICADR-19 和 TableBank,在 TableBank 和 PubLaynet 数据集上以 30%标签数据实现了 95.7%和 97.9%的 mAP,较之前的半监督表格检测方法分别提升了 7.4 和 7.6 个百分点,结果明确展示了该方法的卓越性能,大幅超过现有所有先进方法。该研究在半监督表格检测方法方面取得了重要进展,为实际文档分析任务提供了更高效准确的解决方案。
May, 2024
通过从 GitHub 中提取的 GitTables 数据集,我们可以训练和评估应用于深度学习的高容量模型,以实现表征模型与关系数据库表相似的表。通过进行语义类型标注、层次关系和来自 Schema.org 和 DBpedia 的描述,我们可以提供人工注释一致的结果,并通过三个应用:语义类型检测模型、模式完成方法以及用于表到知识图谱匹配的基准测试,展示 GitTables 的价值。
Jun, 2021
本文介绍了 TableNet—— 一种新颖的端到端深度学习模型,用于识别文档图像中的表格,并提出了一种语义规则的行提取方法,结果表明该模型在两个公开数据集(ICDAR 2013 和 Marmot Table)上都达到了最佳性能,并能通过给模型添加额外的语义特征进行性能提升,同时表明该模型对数据集的迁移学习效果良好。
Jan, 2020
TableBank 使用 Word 和 Latex 文档的弱监督,构建了一个新的基于图像的表格检测和识别数据集。该数据集包含 417K 个高质量标记的表格,并利用深度神经网络构建了多个强基线模型,旨在为表格检测和识别任务提供更多的深度学习方法。
Mar, 2019
我们提出了一种新颖的基于深度学习的方法来对文档中的单词进行聚类, 并应用于检测和识别 OCR 输出中的表格。我们将表的结构从底部向上解释为单词之间的关系图(属于同一行,列,标题以及同一张表),并使用 Transformer 编码器模型来预测其邻接矩阵。我们在 PubTables-1M 数据集以及 PubTabNet 和 FinTabNet 数据集上展示了我们方法的性能。与当前的最先进的检测方法如 DETR 和 Faster R-CNN 相比,我们的方法在精度上达到了类似或更好的结果,并且要求更小的模型。
Feb, 2024
通过自我监督预训练和表格图像的更丰富无标注数据,UniTable 提出了一种统一的训练框架,将表格结构识别的训练对象整合为语言建模,达到了领域内最高水平。
Mar, 2024
本研究提出了一种名为 Multi-Type-TD-TSR 的多阶段流水线,可实现表格检测和结构识别的端对端解决方案,利用深度学习模型实现表格检测和区分边框的三种不同类型的表格。在 ICDAR 2019 表格结构识别数据集上进行评估,实现了新的最先进技术。
May, 2021
该论文提出了一种 Contextualized Table Extraction (CTE) 的任务,目的是根据文档的文本信息来提取和定义表格结构,提供了一个包含超过 35,000 个表格的科学论文的数据集,并且可以用于开发各种任务的端到端流程,包括文档布局分析、表格检测、结构识别和功能分析,并且定义了评估指标,描述了此数据集的优点、限制和未来工作。
Feb, 2023