PubTables-1M: 实现从非结构化文档中全面提取表格

Sep, 2021

PubTables-1M: 实现从非结构化文档中全面提取表格

PubTables-1M: Towards comprehensive table extraction from unstructured documents

Brandon Smock, Rohith Pesala, Robin Abraham

TL;DR本研究针对表格结构推断和从非结构化文件中提取数据的机器学习问题，提出了一种新的数据集 PubTables-1M，并通过使用一种新颖的规范化程序来解决之前数据集中出现的一个重要问题 —— 过度分割，发现这些改进导致训练性能显着提高，表结构识别的可靠性评估也更加可信，最终会对对象检测产生积极影响。

Abstract

Recently, significant progress has been made applying machine learning to the problem of table structure inference and extraction from unstructured documents. However, one of the greatest challenges remains the creation of →

machine learning table extraction datasets ground truth object detection

发现论文，激发创造

基于图像的表格识别：数据、模型和评估

本研究提出了一个基于编码器 - 解码器结构的深度学习模型，用于将表格图像转换为 HTML 代码，并使用一种新的基于 Tree-Edit-Distance 相似度（TEDS）度量方法实现表格识别，实验结果表明所提出的模型在复杂表格识别方面具有优秀的表现。

Nov, 2019

TableFormer: 基于 Transformer 的表格结构理解

本文提出了一种新的表格结构识别模型，通过引入新的对象检测解码器和基于 transformer 的解码器，能够更准确地提取表格内容并处理各种形式的表格。

Mar, 2022

适用于文档中的表格检测的调制物体查询的端到端半监督方法

本研究提出了一种创新的基于 Transformer 的半监督表格检测器，通过结合一对一和一对多分配技术的新型匹配策略提高了伪标签质量，在早期阶段显著提高了训练效率，进而确保了更好的伪标签进行进一步训练。该方法在多个基准数据集上进行了全面评估，包括 PubLayNet、ICADR-19 和 TableBank，在 TableBank 和 PubLaynet 数据集上以 30％标签数据实现了 95.7％和 97.9％的 mAP，较之前的半监督表格检测方法分别提升了 7.4 和 7.6 个百分点，结果明确展示了该方法的卓越性能，大幅超过现有所有先进方法。该研究在半监督表格检测方法方面取得了重要进展，为实际文档分析任务提供了更高效准确的解决方案。

May, 2024

GitTables：关系表的大规模语料库

通过从 GitHub 中提取的 GitTables 数据集，我们可以训练和评估应用于深度学习的高容量模型，以实现表征模型与关系数据库表相似的表。通过进行语义类型标注、层次关系和来自 Schema.org 和 DBpedia 的描述，我们可以提供人工注释一致的结果，并通过三个应用：语义类型检测模型、模式完成方法以及用于表到知识图谱匹配的基准测试，展示 GitTables 的价值。

Jun, 2021

TableNet: 一种深度学习模型，用于从扫描文档图像中端到端地检测表格并提取表格数据

本文介绍了 TableNet—— 一种新颖的端到端深度学习模型，用于识别文档图像中的表格，并提出了一种语义规则的行提取方法，结果表明该模型在两个公开数据集（ICDAR 2013 和 Marmot Table）上都达到了最佳性能，并能通过给模型添加额外的语义特征进行性能提升，同时表明该模型对数据集的迁移学习效果良好。

Jan, 2020

TableBank: 一份用于表格检测和识别的基准数据集

TableBank 使用 Word 和 Latex 文档的弱监督，构建了一个新的基于图像的表格检测和识别数据集。该数据集包含 417K 个高质量标记的表格，并利用深度神经网络构建了多个强基线模型，旨在为表格检测和识别任务提供更多的深度学习方法。

Mar, 2019

ClusterTabNet：用于表格检测和表格结构识别的有监督聚类方法

我们提出了一种新颖的基于深度学习的方法来对文档中的单词进行聚类，并应用于检测和识别 OCR 输出中的表格。我们将表的结构从底部向上解释为单词之间的关系图（属于同一行，列，标题以及同一张表），并使用 Transformer 编码器模型来预测其邻接矩阵。我们在 PubTables-1M 数据集以及 PubTabNet 和 FinTabNet 数据集上展示了我们方法的性能。与当前的最先进的检测方法如 DETR 和 Faster R-CNN 相比，我们的方法在精度上达到了类似或更好的结果，并且要求更小的模型。

Feb, 2024

UniTable: 通过自监督预训练实现表格结构识别的统一框架

通过自我监督预训练和表格图像的更丰富无标注数据，UniTable 提出了一种统一的训练框架，将表格结构识别的训练对象整合为语言建模，达到了领域内最高水平。

Mar, 2024

使用多阶段流程进行表格检测和表格结构识别的多类型 TD-TSR —— 从 OCR 到结构化表格表示中提取文档图像的表格

本研究提出了一种名为 Multi-Type-TD-TSR 的多阶段流水线，可实现表格检测和结构识别的端对端解决方案，利用深度学习模型实现表格检测和区分边框的三种不同类型的表格。在 ICDAR 2019 表格结构识别数据集上进行评估，实现了新的最先进技术。

May, 2021

CTE：一种用于上下文化表格提取的数据集

该论文提出了一种 Contextualized Table Extraction (CTE) 的任务，目的是根据文档的文本信息来提取和定义表格结构，提供了一个包含超过 35,000 个表格的科学论文的数据集，并且可以用于开发各种任务的端到端流程，包括文档布局分析、表格检测、结构识别和功能分析，并且定义了评估指标，描述了此数据集的优点、限制和未来工作。

Feb, 2023