重新审视用于具有视觉丰富度文档的表格检测数据集
本研究提出了一个基于编码器 - 解码器结构的深度学习模型,用于将表格图像转换为 HTML 代码,并使用一种新的基于 Tree-Edit-Distance 相似度(TEDS)度量方法实现表格识别,实验结果表明所提出的模型在复杂表格识别方面具有优秀的表现。
Nov, 2019
本研究提出了一种基于分离 IoU 的桌子检测方法,使用 SparseR-CNN 作为基础模型,并使用高斯噪声增强的图像大小区域建议和多对一的标签分配来进一步改进该模型,实验结果表明这种方法在多种数据集和 IoU 度量的情况下始终优于现有方法,并且我们进一步用实验证明了该方法可以减小信息损失。
May, 2023
TableBank 使用 Word 和 Latex 文档的弱监督,构建了一个新的基于图像的表格检测和识别数据集。该数据集包含 417K 个高质量标记的表格,并利用深度神经网络构建了多个强基线模型,旨在为表格检测和识别任务提供更多的深度学习方法。
Mar, 2019
基于中国金融公告的表格结构和内容,提出一种用于表格识别的新型注释数据综合方法,利用现有复杂表格的结构和内容,有效地创建接近目标领域中真实风格的表格。借助这种方法,构建了首个广泛的金融领域表格注释数据集,用于训练深度学习的表格识别模型,同时建立了中国金融公告领域中现实世界复杂表格的基准测试,用于评估在模型上训练了我们合成数据的性能,验证了方法的实用性和有效性。此外,通过增加跨越多个单元格的表格比例,将综合方法应用于从英文金融公告中提取的 FinTabNet 数据集,实验证明在表格识别中,通过在这个扩充数据集上训练的模型性能得到全面提升,尤其是在识别具有跨越多个单元格的表格方面。
Apr, 2024
本文介绍了 TableNet—— 一种新颖的端到端深度学习模型,用于识别文档图像中的表格,并提出了一种语义规则的行提取方法,结果表明该模型在两个公开数据集(ICDAR 2013 和 Marmot Table)上都达到了最佳性能,并能通过给模型添加额外的语义特征进行性能提升,同时表明该模型对数据集的迁移学习效果良好。
Jan, 2020
本研究针对表格结构推断和从非结构化文件中提取数据的机器学习问题,提出了一种新的数据集 PubTables-1M,并通过使用一种新颖的规范化程序来解决之前数据集中出现的一个重要问题 —— 过度分割,发现这些改进导致训练性能显着提高,表结构识别的可靠性评估也更加可信,最终会对对象检测产生积极影响。
Sep, 2021
我们提出了一种端到端的流程,通过集成深度学习模型实现图像中的表格自动识别,解决了表格检测、表格结构识别和表格内容识别的问题,提高了准确性和效率。
Apr, 2024
为了更好地理解 3D 室内场景的表面活动(如吃饭或写字),我们介绍了 TO-Scene,这是一个着重于桌面场景的大型数据集,包含三个变体。我们设计了一个有效且可扩展的框架来获得数据,并提出了桌面感知学习策略,以更好地感知小型桌面实例。最重要的是,我们还提供了一个真实扫描测试集 TO-Real,以验证 TO-Scene 的实际价值。
Mar, 2022
在复杂的商务文件中,本文研究了表格检测与提取,提出一种利用单模型提取表格中信息的方法,并使用基于单词框、位置嵌入、可训练文本特征和图形的全面页面表示来解决这个问题。我们建立了一个新的数据集,提供了多种基线方法和新的神经网络模型来解决表格识别问题,并详细分析了图卷积和自注意力对模型性能的影响。
Mar, 2019
本文提出了扭曲文档图像数据集(DDI-100),该数据集是基于 7000 张真实唯一的文档页面的合成数据集,包含超过 100000 个增强图像,标注信息包括文本和邮戳掩模、文本和字符边界框等,验证结果表明该数据集在文档分析等多种领域有很好的实用价值。
Dec, 2019