利用可视化排版组件提高从科学 PDF 文件中提取结构化内容的效果
本文研究信息提取的问题,使用大型预训练语言模型和图神经网络相结合的模型来高效地编码视觉和文本信息,并引入新的微调目标,通过使用大量未标记的领域内数据来改善领域内无监督微调。我们在真实世界的发票和简历数据集上进行了实验,并表明所提出的方法在发票上的绝对 F1 比强文本基线高出 6.3% ,在简历中 F1 绝对值增加了 4.7%。在少数样本情况下,我们的方法需要比基线少 30 倍的批注数据才能在约 90%的 F1 达到相同的性能水平。
May, 2020
给定一张文档图像,本研究提出了一种名为 ViTLP 的视觉引导生成文本 - 布局预训练模型,通过生成交错文本和布局序列来优化层次化语言和布局建模目标,以处理任意长度的文字密集型文档,并有效应用于各种下游的视觉文档理解任务。
Mar, 2024
该研究构建了基于文档的对话系统,旨在从视觉丰富的文档(VRD)中提取结构和语义知识,以生成准确的回复,为此创建了一个布局感知的文档级信息提取数据集 LIE,并开发了基准方法考虑人类的布局特征,实验结果表明布局对基于 VRD 的提取至关重要,系统演示也验证了提取的知识能够帮助用户找到关心的答案。LIE 包含来自产品和官方文档中 4,061 页的 62k 注释,成为我们所知最大的基于 VRD 的信息提取数据集。
Jul, 2022
本研究测试了布局增强语言模型对布局变化的鲁棒性,以科学论文结构恢复任务为案例,发现布局分布变化会导致模型性能下降。简单的训练策略可以降低性能下降,但模型无法在任何测试条件下达到样本内性能。本研究强调了在模型评估过程中考虑布局分布变化的必要性,并提出了一种实现方法。
Jun, 2023
LayoutLMv2 提出了一种新的预训练架构,通过在一个多模态框架中建模文本、布局和图像之间的交互以及整合空间感知自注意机制,在预训练阶段更好地捕获跨模态交互,实现在 FUNSD,CORD,SROIE,Kleister-NDA,RVL-CDIP 和 DocVQA 等下游视觉丰富的文档理解任务上新的最先进结果。
Dec, 2020
本文提出了 LayoutLLM,一种更灵活的文档分析方法,用于理解图像化文档。通过利用现有研究在文档图像理解和大规模语言模型的优势,通过与多模态指令数据集进行微调,提出的模型在单个模型中执行对文档图像的理解,并通过实验证明在各种文档分析任务中改进了基线模型。
Mar, 2024
我们提出了 GraphLayoutLM 模型,它利用布局结构图的建模将文档布局知识注入模型,使得模型能够理解文本元素的空间排列,以提高文档的理解能力,并在 FUNSD、XFUND 和 CORD 等基准测试中取得了最先进的结果。
Aug, 2023
本文提出了一种名为 GeolayoutLM 的多模态框架,通过显式地建模提前准备阶段的几何关系来解决 Visual information extraction 领域中 semantic entity recognition 和 relation extraction 模型中的局限性,并在相关基准测试中取得了竞争性的高分数。
Apr, 2023
在 OCR 系统获取的布局特征的基础上,改进 Transformer 编码器的结构来构建布局感知的语言模型,展示在信息提取方面的出色性能。
Feb, 2020
通过设计新算法提高 PDF 文档的临床内容分析性能,包括文本分类和信息抽取等多个步骤,并在使用医学样例数据进行检验后,成功在临床使用案例中提高了医学概念的信息抽取效率。
May, 2023