重新审视用于具有视觉丰富度文档的表格检测数据集

May, 2023

重新审视用于具有视觉丰富度文档的表格检测数据集

Revisiting Table Detection Datasets for Visually Rich Documents

Bin Xiao, Murat Simsek, Burak Kantarci, Ala Abu Alkheir

TL;DR本文提出了一种新的数据集 Open-Tables 和 ICT-TD，利用领域专家指导手动注释，清理了现有数据集中的噪声，并将注释定义进行了统一，结果表明这些新数据集更适合交叉领域设置，可提供高质量和一致性注释，更可靠地进行模型评估。

Abstract

table detection has become a fundamental task for visually rich document understanding with the surging number of electronic documents. There have been some open datasets widely used in many studies. However, pop

table detection open datasets annotations data sources model performance

发现论文，激发创造

基于图像的表格识别：数据、模型和评估

本研究提出了一个基于编码器 - 解码器结构的深度学习模型，用于将表格图像转换为 HTML 代码，并使用一种新的基于 Tree-Edit-Distance 相似度（TEDS）度量方法实现表格识别，实验结果表明所提出的模型在复杂表格识别方面具有优秀的表现。

Nov, 2019

适用于视觉丰富的文档图像的表格检测

本研究提出了一种基于分离 IoU 的桌子检测方法，使用 SparseR-CNN 作为基础模型，并使用高斯噪声增强的图像大小区域建议和多对一的标签分配来进一步改进该模型，实验结果表明这种方法在多种数据集和 IoU 度量的情况下始终优于现有方法，并且我们进一步用实验证明了该方法可以减小信息损失。

May, 2023

TableBank: 一份用于表格检测和识别的基准数据集

TableBank 使用 Word 和 Latex 文档的弱监督，构建了一个新的基于图像的表格检测和识别数据集。该数据集包含 417K 个高质量标记的表格，并利用深度神经网络构建了多个强基线模型，旨在为表格检测和识别任务提供更多的深度学习方法。

Mar, 2019

合成逼真的数据进行表格识别

基于中国金融公告的表格结构和内容，提出一种用于表格识别的新型注释数据综合方法，利用现有复杂表格的结构和内容，有效地创建接近目标领域中真实风格的表格。借助这种方法，构建了首个广泛的金融领域表格注释数据集，用于训练深度学习的表格识别模型，同时建立了中国金融公告领域中现实世界复杂表格的基准测试，用于评估在模型上训练了我们合成数据的性能，验证了方法的实用性和有效性。此外，通过增加跨越多个单元格的表格比例，将综合方法应用于从英文金融公告中提取的 FinTabNet 数据集，实验证明在表格识别中，通过在这个扩充数据集上训练的模型性能得到全面提升，尤其是在识别具有跨越多个单元格的表格方面。

Apr, 2024

TableNet: 一种深度学习模型，用于从扫描文档图像中端到端地检测表格并提取表格数据

本文介绍了 TableNet—— 一种新颖的端到端深度学习模型，用于识别文档图像中的表格，并提出了一种语义规则的行提取方法，结果表明该模型在两个公开数据集（ICDAR 2013 和 Marmot Table）上都达到了最佳性能，并能通过给模型添加额外的语义特征进行性能提升，同时表明该模型对数据集的迁移学习效果良好。

Jan, 2020

PubTables-1M: 实现从非结构化文档中全面提取表格

本研究针对表格结构推断和从非结构化文件中提取数据的机器学习问题，提出了一种新的数据集 PubTables-1M，并通过使用一种新颖的规范化程序来解决之前数据集中出现的一个重要问题 —— 过度分割，发现这些改进导致训练性能显着提高，表结构识别的可靠性评估也更加可信，最终会对对象检测产生积极影响。

Sep, 2021

TC-OCR：高效检测与识别表格结构和内容的 TableCraft OCR

我们提出了一种端到端的流程，通过集成深度学习模型实现图像中的表格自动识别，解决了表格检测、表格结构识别和表格内容识别的问题，提高了准确性和效率。

Apr, 2024

TO-Scene：用于理解三维台面场景的大规模数据集

为了更好地理解 3D 室内场景的表面活动（如吃饭或写字），我们介绍了 TO-Scene，这是一个着重于桌面场景的大型数据集，包含三个变体。我们设计了一个有效且可扩展的框架来获得数据，并提出了桌面感知学习策略，以更好地感知小型桌面实例。最重要的是，我们还提供了一个真实扫描测试集 TO-Real，以验证 TO-Scene 的实际价值。

Mar, 2022

结构化文档中的表格理解

在复杂的商务文件中，本文研究了表格检测与提取，提出一种利用单模型提取表格中信息的方法，并使用基于单词框、位置嵌入、可训练文本特征和图形的全面页面表示来解决这个问题。我们建立了一个新的数据集，提供了多种基线方法和新的神经网络模型来解决表格识别问题，并详细分析了图卷积和自注意力对模型性能的影响。

Mar, 2019

DDI-100: 文本检测和识别数据集

本文提出了扭曲文档图像数据集（DDI-100），该数据集是基于 7000 张真实唯一的文档页面的合成数据集，包含超过 100000 个增强图像，标注信息包括文本和邮戳掩模、文本和字符边界框等，验证结果表明该数据集在文档分析等多种领域有很好的实用价值。

Dec, 2019