历史登记簿表格识别的机器学习方法比较
表格识别是使用计算机自动理解表格,从文档或图片中检测表格位置并正确提取和识别表格的内部结构和内容。本文从数据集、表格识别模型、端到端方法、数据增强和表单识别等方面综述了表格识别问题,并总结和比较了该领域的实验数据,分析了主流和更有优势的方法。最后,还讨论了未来表格处理的可能发展方向和趋势,为表格识别领域的研究者提供了一些思路。
Dec, 2023
本文提出一种基于图网络架构的表格识别方法,在视觉特征提取方面融合了卷积神经网络的优势;实验证明该方法优于基准线方法。此外,为了解决大规模数据集问题,文中提出了一种合成数据集,并开源了数据集生成及图网络训练框架,以推进研究的可复制性。
May, 2019
本文提出了一种基于深度学习的方法,它首先对表格图像进行预处理,然后将其输入到具有门控循环单元(GRU)的双向循环神经网络中,最终将结果分类为行分隔符或列分隔符。该方法在表格结构提取方面取得了显著的性能提升。
Jan, 2020
本研究探讨了多种 Named Entity Recognition 方法,并针对脑成像报告中的记录与应用 (i) 基于规则、(ii) 深度学习和 (iii) 迁移学习系统,重点研究帕金森氏病患者病历中的自动标记。研究者确定手工制作的系统是自动标记 EHR 的最准确方法,但是机器学习方法可以在无法轻易获得手动系统资源的情况下提供一种可行的替代方案。
Mar, 2019
本文介绍了 TableNet—— 一种新颖的端到端深度学习模型,用于识别文档图像中的表格,并提出了一种语义规则的行提取方法,结果表明该模型在两个公开数据集(ICDAR 2013 和 Marmot Table)上都达到了最佳性能,并能通过给模型添加额外的语义特征进行性能提升,同时表明该模型对数据集的迁移学习效果良好。
Jan, 2020
本研究提出了一个基于编码器 - 解码器结构的深度学习模型,用于将表格图像转换为 HTML 代码,并使用一种新的基于 Tree-Edit-Distance 相似度(TEDS)度量方法实现表格识别,实验结果表明所提出的模型在复杂表格识别方面具有优秀的表现。
Nov, 2019
在复杂的商务文件中,本文研究了表格检测与提取,提出一种利用单模型提取表格中信息的方法,并使用基于单词框、位置嵌入、可训练文本特征和图形的全面页面表示来解决这个问题。我们建立了一个新的数据集,提供了多种基线方法和新的神经网络模型来解决表格识别问题,并详细分析了图卷积和自注意力对模型性能的影响。
Mar, 2019
本文使用深度卷积神经网络、图形模型和关注点概念相结合的方法,设计了一种用于数字文本中表格和图表检测和定位的深度神经网络,其结果在 ICDAR 2013 数据集中表现良好。
Apr, 2018
本篇论文提出使用单个深度卷积神经网络(CNN)模型的改进型深度学习端到端方法:CascadeTabNet,用于解决表格检测和结构识别的两个问题,并通过有效的迁移学习和图像增强技术在 ICDAR 2013、ICDAR 2019 和 TableBank 数据集上达到了最佳结果。
Apr, 2020