表格结构和字符识别的多细胞解码器与相互学习

Apr, 2024

表格结构和字符识别的多细胞解码器与相互学习

Multi-Cell Decoder and Mutual Learning for Table Structure and Character Recognition

Takaya Kawakatsu

TL;DR从科学论文和财务报告等文件中提取表格内容，并将其转换为可以被大型语言模型处理的格式是知识信息处理中的一项重要任务。本文提出了一种多单元内容解码器和双向互相学习机制的端到端方法改进方案，通过两个大型数据集的实验结果表明，该方法在性能上与最先进的模型相当，甚至对于包含大量单元的长表格也能达到可比较的性能。

Abstract

Extracting table contents from documents such as scientific papers and financial reports and converting them into a format that can be processed by large language models is an important task in knowledge informat

发现论文，激发创造

复杂表格结构识别

本论文提出了一种名为GraphTSR的新型图神经网络，用于在PDF文件中识别表的结构，其通过预测单元之间的关系来识别表结构，并构建了一个大规模的表结构识别数据集SciTSR，该模型对于复杂的表具有很高效性，并超过了基准数据集和新构建的数据集中的现有模型。

Aug, 2019

基于图像的表格识别：数据、模型和评估

本研究提出了一个基于编码器-解码器结构的深度学习模型，用于将表格图像转换为HTML代码，并使用一种新的基于Tree-Edit-Distance相似度（TEDS）度量方法实现表格识别，实验结果表明所提出的模型在复杂表格识别方面具有优秀的表现。

Nov, 2019

TableNet: 一种深度学习模型，用于从扫描文档图像中端到端地检测表格并提取表格数据

本文介绍了TableNet——一种新颖的端到端深度学习模型，用于识别文档图像中的表格，并提出了一种语义规则的行提取方法，结果表明该模型在两个公开数据集（ICDAR 2013和Marmot Table）上都达到了最佳性能，并能通过给模型添加额外的语义特征进行性能提升，同时表明该模型对数据集的迁移学习效果良好。

Jan, 2020

使用双向门控循环单元网络进行表格结构提取

本文提出了一种基于深度学习的方法，它首先对表格图像进行预处理，然后将其输入到具有门控循环单元（GRU）的双向循环神经网络中，最终将结果分类为行分隔符或列分隔符。该方法在表格结构提取方面取得了显著的性能提升。

Jan, 2020

全局表格抽取器（GTE）：使用视觉上下文进行联合表格识别和单元格结构识别的框架

本文介绍了全局表格提取器（GTE），它是一种由视觉引导的系统框架，旨在通过基于自然单元格包含约束的新型罚函数来训练表格网络，以检测表格和单元格结构，结合表格风格，设计一种新的分层单元格检测网络，并定期标记表格和单元格结构以便成为训练数据。实验证明，GTE在表格检测和单元格结构识别方面超过之前的最先进结果，并且在新的跨域FinTabNet数据集上的实验表明，在单元格结构识别方面比vanilla RetinaNet的物体检测模型提高了45%以上。

May, 2020

使用自上而下和自下而上线索的表格结构识别

本研究提出了一种识别具有复杂结构，密集内容和不同布局的表格的方法，其不依赖于元特征和OCR，并结合单元检测和交互模块来本地化细胞并预测它们与其他检测到的单元的行和列关联，同时将结构约束作为细胞检测损失函数的附加差分组件，从而将自上而下和自下而上的线索结合在一起，实现对表格的视觉理解

Oct, 2020

使用多阶段流程进行表格检测和表格结构识别的多类型 TD-TSR —— 从 OCR 到结构化表格表示中提取文档图像的表格

本研究提出了一种名为Multi-Type-TD-TSR的多阶段流水线，可实现表格检测和结构识别的端对端解决方案，利用深度学习模型实现表格检测和区分边框的三种不同类型的表格。在ICDAR 2019表格结构识别数据集上进行评估，实现了新的最先进技术。

May, 2021

TableFormer: 基于Transformer的表格结构理解

本文提出了一种新的表格结构识别模型，通过引入新的对象检测解码器和基于transformer的解码器，能够更准确地提取表格内容并处理各种形式的表格。

Mar, 2022

基于编码器-解码器模型的表格生成框架

提出了一种面向文本到表格的神经模型框架，包括排列基础的解码器，可应用于提取行项、合并实体和关系、或者知识库填充等NLP任务中，并在多个挑战性数据集上实现了超越以往解决方法高达15％的最优效果。

Jun, 2022

TRUST: 使用基于分割的Transformer的准确的端到端表格结构识别器

本文提出了一种基于Transformer网络的table structure recognition方法TRUST，并引入了基于查询的切割模块和基于顶点的合并模块，将table structure recognition问题分解为两个联合优化子任务：多向表格行/列分割和表格网格合并。在PubTabNet和SynthTable基准测试中，TRUST表现为全新的最先进结果，尤其是在PubTabNet上达到每秒10帧的速度，大大超越了以前的方法。

Aug, 2022