历史登记簿表格识别的机器学习方法比较

Jun, 2019

历史登记簿表格识别的机器学习方法比较

Comparing Machine Learning Approaches for Table Recognition in Historical Register Books

Stéphane Clinchant, Hervé Déjean, Jean-Luc Meunier, Eva Lang, Florian Kleber

TL;DR本文研究手写登记簿中的表格识别问题，比较了条件随机场和图卷积网络两种机器学习方法，通过对来自帕绍教区档案馆的死亡记录进行评估，发现两种方法都具有相似的 89 个 F1 分数，在信息提取方面具有很高的质量。所使用的软件和数据集都是开源的。

Abstract

We present in this paper experiments on table recognition in hand-written registry books. We first explain how the problem of row and column detection is modeled, and then compare two Machine Learning approaches (Conditional Random Field and →

table recognition handwritten registry books conditional random field graph convolutional network information extraction

发现论文，激发创造

基于深度学习的表格识别综述

表格识别是使用计算机自动理解表格，从文档或图片中检测表格位置并正确提取和识别表格的内部结构和内容。本文从数据集、表格识别模型、端到端方法、数据增强和表单识别等方面综述了表格识别问题，并总结和比较了该领域的实验数据，分析了主流和更有优势的方法。最后，还讨论了未来表格处理的可能发展方向和趋势，为表格识别领域的研究者提供了一些思路。

Dec, 2023

使用图神经网络重新思考表格识别

本文提出一种基于图网络架构的表格识别方法，在视觉特征提取方面融合了卷积神经网络的优势；实验证明该方法优于基准线方法。此外，为了解决大规模数据集问题，文中提出了一种合成数据集，并开源了数据集生成及图网络训练框架，以推进研究的可复制性。

May, 2019

使用双向门控循环单元网络进行表格结构提取

本文提出了一种基于深度学习的方法，它首先对表格图像进行预处理，然后将其输入到具有门控循环单元（GRU）的双向循环神经网络中，最终将结果分类为行分隔符或列分隔符。该方法在表格结构提取方面取得了显著的性能提升。

Jan, 2020

基于规则和机器学习方法的电子病历命名实体识别比较

本研究探讨了多种 Named Entity Recognition 方法，并针对脑成像报告中的记录与应用 (i) 基于规则、(ii) 深度学习和 (iii) 迁移学习系统，重点研究帕金森氏病患者病历中的自动标记。研究者确定手工制作的系统是自动标记 EHR 的最准确方法，但是机器学习方法可以在无法轻易获得手动系统资源的情况下提供一种可行的替代方案。

Mar, 2019

TableNet: 一种深度学习模型，用于从扫描文档图像中端到端地检测表格并提取表格数据

本文介绍了 TableNet—— 一种新颖的端到端深度学习模型，用于识别文档图像中的表格，并提出了一种语义规则的行提取方法，结果表明该模型在两个公开数据集（ICDAR 2013 和 Marmot Table）上都达到了最佳性能，并能通过给模型添加额外的语义特征进行性能提升，同时表明该模型对数据集的迁移学习效果良好。

Jan, 2020

TGRNet: 用于表格结构识别的表格图重建网络

本文在于研究表格结构识别问题，提出了一种端到端可训练的表格图重建神经网络 TGRNet，该方法成功地解决了表格的结构识别问题。

Jun, 2021

基于图像的表格识别：数据、模型和评估

本研究提出了一个基于编码器 - 解码器结构的深度学习模型，用于将表格图像转换为 HTML 代码，并使用一种新的基于 Tree-Edit-Distance 相似度（TEDS）度量方法实现表格识别，实验结果表明所提出的模型在复杂表格识别方面具有优秀的表现。

Nov, 2019

结构化文档中的表格理解

在复杂的商务文件中，本文研究了表格检测与提取，提出一种利用单模型提取表格中信息的方法，并使用基于单词框、位置嵌入、可训练文本特征和图形的全面页面表示来解决这个问题。我们建立了一个新的数据集，提供了多种基线方法和新的神经网络模型来解决表格识别问题，并详细分析了图卷积和自注意力对模型性能的影响。

Mar, 2019

基于显著性的卷积神经网络用于数字化文档中表格和图表的检测

本文使用深度卷积神经网络、图形模型和关注点概念相结合的方法，设计了一种用于数字文本中表格和图表检测和定位的深度神经网络，其结果在 ICDAR 2013 数据集中表现良好。

Apr, 2018

CascadeTabNet：一种端到端的基于图像文档的表格检测和结构识别方法

本篇论文提出使用单个深度卷积神经网络（CNN）模型的改进型深度学习端到端方法：CascadeTabNet，用于解决表格检测和结构识别的两个问题，并通过有效的迁移学习和图像增强技术在 ICDAR 2013、ICDAR 2019 和 TableBank 数据集上达到了最佳结果。

Apr, 2020