合成逼真的数据进行表格识别

Apr, 2024

Synthesizing Realistic Data for Table Recognition

Qiyu Hou, Jun Wang, Meixuan Qiao, Lujun Tian

TL;DR基于中国金融公告的表格结构和内容，提出一种用于表格识别的新型注释数据综合方法，利用现有复杂表格的结构和内容，有效地创建接近目标领域中真实风格的表格。借助这种方法，构建了首个广泛的金融领域表格注释数据集，用于训练深度学习的表格识别模型，同时建立了中国金融公告领域中现实世界复杂表格的基准测试，用于评估在模型上训练了我们合成数据的性能，验证了方法的实用性和有效性。此外，通过增加跨越多个单元格的表格比例，将综合方法应用于从英文金融公告中提取的 FinTabNet 数据集，实验证明在表格识别中，通过在这个扩充数据集上训练的模型性能得到全面提升，尤其是在识别具有跨越多个单元格的表格方面。

Abstract

To overcome the limitations and challenges of current automatic table data annotation methods and random table data synthesis approaches, we propose a novel method for synthesizing annotation data specifically designed for table recognition. This method utilizes the structure and content of existing complex tables, facilitating the efficient creation of tabl

automatic table data annotation table recognition synthesis method chinese financial announcements deep learning-based models

发现论文，激发创造

增强表格推理的现实数据增强框架

该论文提出了一种实际的半自动数据增强框架，可以为半结构化表格推理等 NLI 任务构建训练数据。使用生成可应用于相似表格的假设模板生成假设并基于人类逻辑约束和前提重述创建有理的反事实表。该框架可以产生类人的表推理示例，可在有限监督的情况下提高训练数据的规模。

Oct, 2022

Wiki-TabNER：通过命名实体识别推进表格解释

为了弥补现有评估数据集的不足，本研究构建了一个更具挑战性的数据集，并引入了一种新颖的问题，用于解决实体链接任务，即对单元格中的命名实体进行识别。最后，我们提出了一个提示框架，以评估新开发的大型语言模型在这一新的表格解释任务上的表现。

Mar, 2024

TableBank: 一份用于表格检测和识别的基准数据集

TableBank 使用 Word 和 Latex 文档的弱监督，构建了一个新的基于图像的表格检测和识别数据集。该数据集包含 417K 个高质量标记的表格，并利用深度神经网络构建了多个强基线模型，旨在为表格检测和识别任务提供更多的深度学习方法。

Mar, 2019

基于图像的表格识别：数据、模型和评估

本研究提出了一个基于编码器 - 解码器结构的深度学习模型，用于将表格图像转换为 HTML 代码，并使用一种新的基于 Tree-Edit-Distance 相似度（TEDS）度量方法实现表格识别，实验结果表明所提出的模型在复杂表格识别方面具有优秀的表现。

Nov, 2019

CTAB-GAN: 有效的表格数据合成

本文主要介绍了一种名为 CTAB-GAN 的条件表格 GAN 架构，可以有效地模拟多种数据类型，包括连续和分类变量，并且通过对多项机器学习算法进行测试，在五个数据集上的表现令人印象深刻。

Feb, 2021

异构文档图像中的鲁棒表格检测和结构识别

RobusTabNet 是一种新的具有表检测和结构识别功能的方法，可检测表格的边界，并从异构文档图像中重建每个表格的细胞结构。我们提出了使用 CornerNet 作为新的区域提议网络进行表检测，并提出了基于分割和合并的表格结构识别方法。

Mar, 2022

TableNet: 一种深度学习模型，用于从扫描文档图像中端到端地检测表格并提取表格数据

本文介绍了 TableNet—— 一种新颖的端到端深度学习模型，用于识别文档图像中的表格，并提出了一种语义规则的行提取方法，结果表明该模型在两个公开数据集（ICDAR 2013 和 Marmot Table）上都达到了最佳性能，并能通过给模型添加额外的语义特征进行性能提升，同时表明该模型对数据集的迁移学习效果良好。

Jan, 2020

结构化合成表格数据的评估

通过提出一个带有单一、数学目标的评估框架，该论文意在解决合成表格数据质量评估的问题，允许通过结构化的方式推断度量的完整性，并统一从忠实性、下游应用和基于模型的方法等多个角度出发的度量，展示了显式表达结构的合成数据生成器在小型数据集上的卓越表现。

Mar, 2024

利用数据重塑以增强表格推理

本研究提出一种半自动化框架，使用现有的表格数据重新解构，构建表格自然语言推理实例，以提高性能，分析零样本情况下在不同重新解构数据集类型的表现趋势。

Nov, 2022

重新审视用于具有视觉丰富度文档的表格检测数据集

本文提出了一种新的数据集 Open-Tables 和 ICT-TD，利用领域专家指导手动注释，清理了现有数据集中的噪声，并将注释定义进行了统一，结果表明这些新数据集更适合交叉领域设置，可提供高质量和一致性注释，更可靠地进行模型评估。

May, 2023