- DistilDoc: 视觉内容丰富文档应用的知识蒸馏
针对视觉丰富的文档应用(如文档布局分析和文档图像分类),本文探讨了知识蒸馏(KD)。通过设计一种 KD 实验方法,我们研究了不同架构和容量的骨干模型之间的知识传递策略对教师 - 学生知识差距的影响,并发现一些方法可以始终优于监督学生训练。此 - 无监督文档布局分析
通过基于视觉的方法,本研究利用未标记的网络文档图像生成简单的对象掩码,通过无监督训练迭代持续改进该模型的性能,从而显著提高文档布局分析的准确性和效率。
- DLAFormer:文档布局分析的端到端 Transformer
本文介绍了一种名为 DLAFormer 的基于 Transformer 的文档布局分析方法,将各个子任务整合到一个模型中,利用统一的关系预测模块同时处理多个任务,并引入一组类型化查询来增强 DET 的内容查询的物理意义,采用粗细策略准确识别 - 文档图像中的文档布局分析的混合方法
这篇论文探讨了文档布局分析,使用先进的基于 Transformer 的对象检测网络作为创新的图形页面对象检测器,以识别表格、图形和展示元素。通过引入查询编码机制,提供高质量的对象查询进行对比学习,增强了解码器阶段的效率。同时,本方法采用混合 - CVPRRoDLA:评估文档布局分析模型的鲁棒性
在真实世界应用中开发文档布局分析(DLA)模型之前,进行全面的稳健性测试是必不可少的。然而,DLA 模型的稳健性在文献中仍未得到充分探索。为了解决这个问题,我们首次引入了 DLA 模型的稳健性基准,其中包括三个数据集的 450K 个文档图像 - 检测 - 排序 - 构建:基于树构建的层次化文档结构分析方法
本研究提出了一种基于树构建的层次文档结构分析方法,用于理解文档的物理布局和逻辑结构,其综合分析了多个子任务,包括页面对象检测、已识别对象的阅读顺序预测以及期望层次结构的构建,并在文档布局分析等领域取得了最新成果。
- U-DIADS-Bib:古代手稿文档布局分析的全面和少样本像素精确数据集
介绍了 U-DIADS-Bib,这是一个独特的、像素精确的、无重叠和无噪声的文档布局分析数据集,并提出了一种创新的、计算机辅助的分割流程,以减轻手工注释的负担,并最后提供了一个标准的少样本数据集 (U-DIADS-BibFS),以鼓励开发能 - 基于区域细化框架的科学文档物体识别
通过基于规则的区间分割和文本块分类的方法,我们提出了一种新的科学文档布局分析框架 CTBR(Compartment & Text Blocks Refinement),用于从科学文档中提取数据和实现对象识别。
- 面向复杂推理与常识理解的文档级图表问答
在这项工作中,我们介绍了一项名为文档层次的图表问答 (DCQA) 的新任务,旨在通过文档布局分析 (DLA) 首先提取文档中的图表或绘图,然后进行图表问答 (CQA),并开发了强大的问题 - 答案生成引擎,实现了视觉文档中图表的复杂推理和常 - 文档智能:基于 Transformer、基于图的模型和卷积神经网络的文档布局分析的比较研究
本研究旨在对文档布局分析的最先进模型进行比较评估,并利用机器翻译技术探索跨语言文档布局分析的潜力。
- ICCV文档布局分析的视觉网格变换器
本文介绍了 VGT 模型,它是一种双流视觉格点变换器,通过提出并预训练 GiT 来实现 2D 令牌级和段级语义理解,利用多模态信息和预训练技术为文档布局分析学习更好的表示。此外,还通过 D$^4$LA 数据集,在文档布局分析中达到了最新的最 - Detectron2 上的孟加拉文档布局分析
我们通过使用 Detectron2 库中的先进 Mask R-CNN 模型改进了 Bengali 文档的 DLA 模型的准确性,评估了三种变体,结果表明这些模型在准确分割 Bengali 文档方面非常有效,同时我们强调了预训练权重的重要性, - 基于 Mask-RCNN 的孟加拉文档布局分析性能增强
理解数字化文档就像解谜游戏,特别是历史文档。文档布局分析(DLA)通过将文档划分为段落、图像和表格等部分来解决这个谜题,这对机器读取和理解这些文档至关重要。本研究针对理解孟加拉语文档进行了工作,使用了一个名为 BaDLAD 的数据集,并使用 - 文档布局分析的图形方法
文档布局分析是检测文档中不同的语义内容并正确分类到适当类别(如文本、标题、图表)的任务。本研究采用基于图的布局分析模型(GLAM),将每个 PDF 页面表示为结构化图,并将布局分析问题作为图分割和分类问题进行。与现有模型相比,GLAM 既能 - 公共事务领域的文档布局标注:数据库和基准
本文介绍了一种用于半自动标注数字文档的过程,收集公共事务领域的新数据库,其中包括来自西班牙管理层的 24 个数据源。使用本文提出的文本标注程序可实现高达 99%的准确性。
- M$^{6}$Doc:现代文档布局分析的大规模多格式、多类型、多布局、多语言、多注释类别数据集
本文介绍了一种名为 $M^{6} Doc$ 的大型多样化文档布局分析数据集和一种基于 transformer 的文档布局分析方法 TransDLANet。该方法采用自适应元素匹配机制和构建分割分支,以更好地匹配真实情况,并且实现更精确的文档 - SelfDocSeg:面向文档分割的自监督基于视觉的方法
使用自我监督技术,将文档图像中的伪造布局用于预先训练图像编码器,以在无监督的框架内学习文档对象的表示和定位,然后使用目标检测模型进行微调,该流水线在文档布局分析中表现卓越。
- PARAGRAPH2GRAPH: 基于 GNN 的布局段落分析框架
本文提出了一种名为 Paragraph2Graph 的基于图神经网络(GNN)的模型,它能够处理多种语言,并表现出了在处理文档布局方面的出色能力,同时可以适应需要进行严格分离的业务场景。
- 从复杂文档中提取结构化信息的基准测试
本文提出一个名为 VRDU 的用于评价文档中网络结构、多样的数据类型以及丰富的模板和布局等不同因素综合作用的数据集,并在此基础上设计实验模型,评估文档中结构化数据提取的性能。作者发现,此类任务中面对新模板挑战较大,而针对该问题,本文也提出了 - COLINGDoc-GCN: 面向文档布局分析的异构图卷积网络
我们提出了一种新的文档布局分析方法,即 Doc-GCN ,该方法通过构建图形来描述文档的固有特征并将这些信息应用于图卷积网络中。最终结果表明,我们的方法在三个常用的 DLA 数据集中取得了新的最佳结果。