从复杂环境中解析表格结构

ICCVSep, 2021

Parsing Table Structures in the Wild

Rujiao Long, Wen Wang, Nan Xue, Feiyu Gao, Zhibo Yang...

TL;DR本研究提出了一种名为 Cycle-CenterNet 的方法，基于新的 cycle-pairing 模块，在解析具有组织结构的表格的同时检测和分组表格单元格，也提供了一个大规模数据集 WTW，用于实验测试表格结构解析方法并在实验中证实了该方法的优势。

Abstract

This paper tackles the problem of table structure parsing (TSP) from images in the wild. In contrast to existing studies that mainly focus on parsing well-aligned tabular images with simple layouts from scanned PDF documents, we aim to establish a practical →

table structure parsing cycle-centernet cycle-pairing module wtw dataset teds metric

发现论文，激发创造

异构文档图像中的鲁棒表格检测和结构识别

RobusTabNet 是一种新的具有表检测和结构识别功能的方法，可检测表格的边界，并从异构文档图像中重建每个表格的细胞结构。我们提出了使用 CornerNet 作为新的区域提议网络进行表检测，并提出了基于分割和合并的表格结构识别方法。

Mar, 2022

TRACE：基于角落和边缘对齐的表格重构

该论文提出了一种基于底层特征分离的新方法，将表格分解成单元格，通过单元格的组合确定表格位置，大幅提升了检测表格的效率和精度。

May, 2023

TableParser：利用电子表格弱监督进行自动表格解析

本文介绍了 TableParser 系统，该系统能够高精度地解析原生 PDF 和扫描图像中的表格结构，并提供了一种基于电子表格的弱监督机制和具有启用表格解析功能的管道，以促进进一步的研究方向。

Jan, 2022

复杂表格结构识别

本论文提出了一种名为 GraphTSR 的新型图神经网络，用于在 PDF 文件中识别表的结构，其通过预测单元之间的关系来识别表结构，并构建了一个大规模的表结构识别数据集 SciTSR，该模型对于复杂的表具有很高效性，并超过了基准数据集和新构建的数据集中的现有模型。

Aug, 2019

TC-OCR：高效检测与识别表格结构和内容的 TableCraft OCR

我们提出了一种端到端的流程，通过集成深度学习模型实现图像中的表格自动识别，解决了表格检测、表格结构识别和表格内容识别的问题，提高了准确性和效率。

Apr, 2024

TableFormer: 基于 Transformer 的表格结构理解

本文提出了一种新的表格结构识别模型，通过引入新的对象检测解码器和基于 transformer 的解码器，能够更准确地提取表格内容并处理各种形式的表格。

Mar, 2022

使用自上而下和自下而上线索的表格结构识别

本研究提出了一种识别具有复杂结构，密集内容和不同布局的表格的方法，其不依赖于元特征和 OCR，并结合单元检测和交互模块来本地化细胞并预测它们与其他检测到的单元的行和列关联，同时将结构约束作为细胞检测损失函数的附加差分组件，从而将自上而下和自下而上的线索结合在一起，实现对表格的视觉理解

Oct, 2020

使用多阶段流程进行表格检测和表格结构识别的多类型 TD-TSR —— 从 OCR 到结构化表格表示中提取文档图像的表格

本研究提出了一种名为 Multi-Type-TD-TSR 的多阶段流水线，可实现表格检测和结构识别的端对端解决方案，利用深度学习模型实现表格检测和区分边框的三种不同类型的表格。在 ICDAR 2019 表格结构识别数据集上进行评估，实现了新的最先进技术。

May, 2021

对视觉丰富文档的基于检测的表格结构识别进行再思考

将无结构的表格图像转换为 HTML 序列的表结构识别（TSR）任务经常遇到这样的挑战，并发现现有的基于检测的解决方案存在一些限制，因此比较了两阶段和基于 Transformer 的检测模型，明确了成功的两阶段检测模型的关键设计方面，包括多类问题定义、锚框生成的纵横比和骨干网络的特征生成。通过改进 Cascade R-CNN 模型的这些方面，并应用简单的方法，实现了在 SciTSR、FinTabNet 和 PubTables1M 数据集上针对结构 TEDS 的最新性能提升，分别达到 19.32%、11.56% 和 14.77%。

Dec, 2023

TableNet: 一种深度学习模型，用于从扫描文档图像中端到端地检测表格并提取表格数据

本文介绍了 TableNet—— 一种新颖的端到端深度学习模型，用于识别文档图像中的表格，并提出了一种语义规则的行提取方法，结果表明该模型在两个公开数据集（ICDAR 2013 和 Marmot Table）上都达到了最佳性能，并能通过给模型添加额外的语义特征进行性能提升，同时表明该模型对数据集的迁移学习效果良好。

Jan, 2020