处理文档结构:对法语历史报纸进行逻辑版面分析
在 OCR 系统获取的布局特征的基础上,改进 Transformer 编码器的结构来构建布局感知的语言模型,展示在信息提取方面的出色性能。
Feb, 2020
本研究提出了一种基于 Named Entity Recognition(NER)的细粒度条目分离阶段方法,可同时利用文本和视觉知识,用于从重复组织的文档中提取结构化数据,如字典、目录或报纸,实验结果表明该方法在 19 世纪法国商业目录中效果显著。
Feb, 2023
通过设计新算法提高 PDF 文档的临床内容分析性能,包括文本分类和信息抽取等多个步骤,并在使用医学样例数据进行检验后,成功在临床使用案例中提高了医学概念的信息抽取效率。
May, 2023
我们提出了 GraphLayoutLM 模型,它利用布局结构图的建模将文档布局知识注入模型,使得模型能够理解文本元素的空间排列,以提高文档的理解能力,并在 FUNSD、XFUND 和 CORD 等基准测试中取得了最先进的结果。
Aug, 2023
本研究测试了布局增强语言模型对布局变化的鲁棒性,以科学论文结构恢复任务为案例,发现布局分布变化会导致模型性能下降。简单的训练策略可以降低性能下降,但模型无法在任何测试条件下达到样本内性能。本研究强调了在模型评估过程中考虑布局分布变化的必要性,并提出了一种实现方法。
Jun, 2023
这篇论文探讨了文档布局分析,使用先进的基于 Transformer 的对象检测网络作为创新的图形页面对象检测器,以识别表格、图形和展示元素。通过引入查询编码机制,提供高质量的对象查询进行对比学习,增强了解码器阶段的效率。同时,本方法采用混合匹配方案,在训练阶段将解码器的一对一匹配策略与一对多匹配策略相结合,旨在提高模型在页面上检测各种图形元素的准确性和通用性。实验结果表明,该方法在 PubLayNet、DocLayNet 和 PubTables 等基准测试上的表现超过了现有的最先进方法,PubLayNet 的平均精度为 97.3%,DocLayNet 的精度为 81.6%,PubTables 的精度为 98.6%,证明了其在布局分析方面的优越性能。这些进步不仅提高了将文档图片转换为可编辑和可访问格式的能力,还简化了信息检索和数据提取过程。
Apr, 2024
本研究旨在对文档布局分析的最先进模型进行比较评估,并利用机器翻译技术探索跨语言文档布局分析的潜力。
Aug, 2023
本研究旨在通过理解先进的文档分析技术,特别是多模态模型,在银行业务的操作效率提升和应对金融科技竞争方面的潜力。通过综合分析多样化的银行文件环境,我们展示了通过自动化和高级分析技术在客户业务中提高效率的机会。借助自然语言处理领域的快速发展,我们阐明了在银行业领域分析各种文件的 LayoutXLM 等模型潜力。该模型可对德国公司注册文件进行文本标记分类,整体 F1 得分约为 80%。我们的实证证据证实了布局信息在提高模型性能方面的关键作用,并进一步强调了整合图像信息的好处。有趣的是,我们的研究表明,仅使用 30% 的训练数据就可以达到超过 75% 的 F1 得分,证明了 LayoutXLM 的高效性。通过解决最先进的文档分析框架,我们的研究旨在提高流程效率,展示多模态模型在银行业务中的实际适用性和好处。
Jul, 2023
最近,在大规模使用纯文本数据训练大型语言模型(LLMs)的研究进展中,出现了强大的在许多领域和任务中的泛化能力,包括特定于文档的任务。与此相反,有一种趋势是训练多模态转换器架构,专门为文档理解而设计,旨在将文本输入与相应的文档布局融合在一起。本文研究了使用纯文本 LLMs 进行特定于文档任务的可能性,通过使用布局增强的方式。我们探索了插入修改和基于规则的方法,以将纯文本 LLM 提示与布局信息进行增强。我们的实验研究了商用 ChatGPT 模型和开源 LLM Solar 的效果。我们证明了使用我们的方法,两个 LLMs 在各种标准文档基准测试中均展现出改进的性能。此外,我们研究了有噪音的 OCR 和布局错误的影响,以及 LLMs 在利用文档布局方面的局限性。我们的结果表明,通过布局增强,相较于仅使用纯文本文档,纯文本 LLMs 在文档理解方面的性能可以提高多达 15%。总之,在纯文本 LLM 或多模态文档转换器之间进行最佳模型选择时,应考虑这种方法。
Feb, 2024
本文介绍了一种用于半自动标注数字文档的过程,收集公共事务领域的新数据库,其中包括来自西班牙管理层的 24 个数据源。使用本文提出的文本标注程序可实现高达 99%的准确性。
Jun, 2023