PubLayNet:有史以来最大的文档布局分析数据集
为了解决有限多样性数据集对深度学习模型的影响问题,我们引入了一个包含空间位置、范围和布局元素类型的标签的合成文档数据集 RanLayNet。经过实验证明,使用我们的数据集训练的深度布局识别模型相比仅使用实际文档训练的模型表现更优。此外,我们通过对 Doclaynet 数据集使用 PubLayNet 和 IIIT-AR-13K 数据集的微调模型进行比较分析,发现使用我们的数据集进行增强的模型在科学文档领域的 TABLE 类任务中取得了 0.398 和 0.588 的 mAP95 分数。
Apr, 2024
这篇论文探讨了文档布局分析,使用先进的基于 Transformer 的对象检测网络作为创新的图形页面对象检测器,以识别表格、图形和展示元素。通过引入查询编码机制,提供高质量的对象查询进行对比学习,增强了解码器阶段的效率。同时,本方法采用混合匹配方案,在训练阶段将解码器的一对一匹配策略与一对多匹配策略相结合,旨在提高模型在页面上检测各种图形元素的准确性和通用性。实验结果表明,该方法在 PubLayNet、DocLayNet 和 PubTables 等基准测试上的表现超过了现有的最先进方法,PubLayNet 的平均精度为 97.3%,DocLayNet 的精度为 81.6%,PubTables 的精度为 98.6%,证明了其在布局分析方面的优越性能。这些进步不仅提高了将文档图片转换为可编辑和可访问格式的能力,还简化了信息检索和数据提取过程。
Apr, 2024
本文介绍了一种使用 HJDataset 的深度学习方法,可以准确地分析历史日文文档的布局并提取内容。该数据集包含 250,000 多个布局元素注释和基于半规则的方法构建,旨在提供深度学习模型的基准性能分析。
Apr, 2020
本文介绍了一种名为 $M^{6} Doc$ 的大型多样化文档布局分析数据集和一种基于 transformer 的文档布局分析方法 TransDLANet。该方法采用自适应元素匹配机制和构建分割分支,以更好地匹配真实情况,并且实现更精确的文档图像实例分割,其中 $M^{6} Doc$ 数据集展示了其有效性,并且 TransDLANet 在该数据集上达到了 64.5%的 mAP,该数据集具有多种注释类别的特点。
May, 2023
本论文提出了一个读取顺序检测系统,使用深度学习和基于 seq2seq 模型的 LayoutReader,对包含 500,000 份文档的 ReadingBank 数据库进行了测试,并提高了开源和商业 OCR 引擎的文本顺序识别能力。
Aug, 2021
本文介绍了 DocBank,一个包含 500K 篇文档页面的基准数据集,其中包含细粒度的令牌级别的注释,用于文档布局分析的多模态方法的性能提高研究。实验结果表明,使用 DocBank 训练出的模型可以准确识别各种不同类型的文档的布局信息。
Jun, 2020
这篇文章提出了一种通过将文档视为图像从 PDF 文档中提取元数据的方法,并使用 COCO 数据集进行训练和 PubLayNet 数据集进行微调,以从德语科学出版物中提取 9 个模式(如作者、标题等),并且使用德语和英语内容和一组具有挑战性的模板生成我们提出的合成数据集。结果表明,该方法可以在准确提取具有挑战性模板的多种 PDF 文档时实现大约 90%的平均准确度。
Jun, 2021
LoRaLay 是一个包含带有布局信息的长距离摘要的数据集合,拓展现有的英语数据集(arXiv 和 PubMed)并提供了四个覆盖法语、西班牙语、葡萄牙语和韩语的新数据集。在这篇文章中,我们提出了结合布局感知和长程模型的新基线,并获得了最先进的结果,这显示了在摘要模型中结合两种研究线路的重要性。
Jan, 2023
本文介绍了一种用于半自动标注数字文档的过程,收集公共事务领域的新数据库,其中包括来自西班牙管理层的 24 个数据源。使用本文提出的文本标注程序可实现高达 99%的准确性。
Jun, 2023
这篇论文介绍了名为 layoutparser 的开源库,使用 DL 模型来简化文档图像分析(DIA)研究和应用,并旨在提供轻量级和大规模数字化管道的帮助。
Mar, 2021