ExTTNet:从发票图像中提取表格文本的深度学习算法
本文介绍了 TableNet—— 一种新颖的端到端深度学习模型,用于识别文档图像中的表格,并提出了一种语义规则的行提取方法,结果表明该模型在两个公开数据集(ICDAR 2013 和 Marmot Table)上都达到了最佳性能,并能通过给模型添加额外的语义特征进行性能提升,同时表明该模型对数据集的迁移学习效果良好。
Jan, 2020
本研究提出了一个基于编码器 - 解码器结构的深度学习模型,用于将表格图像转换为 HTML 代码,并使用一种新的基于 Tree-Edit-Distance 相似度(TEDS)度量方法实现表格识别,实验结果表明所提出的模型在复杂表格识别方面具有优秀的表现。
Nov, 2019
我们提出了一种端到端的流程,通过集成深度学习模型实现图像中的表格自动识别,解决了表格检测、表格结构识别和表格内容识别的问题,提高了准确性和效率。
Apr, 2024
我们提出了一种新颖的基于深度学习的方法来对文档中的单词进行聚类, 并应用于检测和识别 OCR 输出中的表格。我们将表的结构从底部向上解释为单词之间的关系图(属于同一行,列,标题以及同一张表),并使用 Transformer 编码器模型来预测其邻接矩阵。我们在 PubTables-1M 数据集以及 PubTabNet 和 FinTabNet 数据集上展示了我们方法的性能。与当前的最先进的检测方法如 DETR 和 Faster R-CNN 相比,我们的方法在精度上达到了类似或更好的结果,并且要求更小的模型。
Feb, 2024
这篇论文介绍了一种名为 DeepReader 的新型企业级综合框架,其通过识别文档图像中的视觉实体并在不同实体之间填充元关系模型来促进文档图像中的信息提取,包括从表格、图表、脚注、文本框和标题等视觉实体中提取相关信息。
Dec, 2018
OCRMiner 系统使用文本分析技术与布局特征相结合的方法从扫描文档图像中提取 (半) 结构化文档的索引元数据。该系统由多个相互连接的模块组成,使用开源 OCR 系统,其英文数据召回率达 90%,捷克语数据召回率为 88%。
Aug, 2022
在复杂的商务文件中,本文研究了表格检测与提取,提出一种利用单模型提取表格中信息的方法,并使用基于单词框、位置嵌入、可训练文本特征和图形的全面页面表示来解决这个问题。我们建立了一个新的数据集,提供了多种基线方法和新的神经网络模型来解决表格识别问题,并详细分析了图卷积和自注意力对模型性能的影响。
Mar, 2019
本文提出一种无分割 OCR 系统,该系统将深度学习方法、数据增强方法和合成训练数据结合起来,使用大型文本语料库和 2000 多种字体渲染合成训练数据,并通过几何失真和提出的 alpha-compositing 数据增强技术模拟复杂的自然环境,并采用 CNN 编码器以提取文本图像特征,检验了序列模型与卷积模型在模拟输入元素交互方面的能力。
Jun, 2019
表格识别是使用计算机自动理解表格,从文档或图片中检测表格位置并正确提取和识别表格的内部结构和内容。本文从数据集、表格识别模型、端到端方法、数据增强和表单识别等方面综述了表格识别问题,并总结和比较了该领域的实验数据,分析了主流和更有优势的方法。最后,还讨论了未来表格处理的可能发展方向和趋势,为表格识别领域的研究者提供了一些思路。
Dec, 2023