利用可视化排版组件提高从科学 PDF 文件中提取结构化内容的效果

ACLJun, 2021

利用可视化排版组件提高从科学 PDF 文件中提取结构化内容的效果

VILA: Improving Structured Content Extraction from Scientific PDFs Using Visual Layout Groups

Zejiang Shen, Kyle Lo, Lucy Lu Wang, Bailey Kuehl, Daniel S. Weld...

TL;DR本文提出了一种新颖的方法，即 I-VILA 和 H-VILA，可以用于从科学论文的 PDF 文件中准确地提取结构化内容，不需要进行昂贵的额外预训练，并通过在模型输入中加入特殊标记或层次编码来提高分类性能或降低推理时间。

Abstract

Accurately extracting structured content from pdfs is a critical first step for nlp over scientific papers. Recent work has improved extraction accuracy by incorporating elementary →

pdfs nlp layout classification pretraining

发现论文，激发创造

具有布局感知能力的基于预训练语言模型的视觉丰富文档信息抽取方法

本文研究信息提取的问题，使用大型预训练语言模型和图神经网络相结合的模型来高效地编码视觉和文本信息，并引入新的微调目标，通过使用大量未标记的领域内数据来改善领域内无监督微调。我们在真实世界的发票和简历数据集上进行了实验，并表明所提出的方法在发票上的绝对 F1 比强文本基线高出 6.3％，在简历中 F1 绝对值增加了 4.7％。在少数样本情况下，我们的方法需要比基线少 30 倍的批注数据才能在约 90％的 F1 达到相同的性能水平。

May, 2020

视觉引导的生成式文档布局预训练

给定一张文档图像，本研究提出了一种名为 ViTLP 的视觉引导生成文本 - 布局预训练模型，通过生成交错文本和布局序列来优化层次化语言和布局建模目标，以处理任意长度的文字密集型文档，并有效应用于各种下游的视觉文档理解任务。

Mar, 2024

基于布局的文档驱动对话信息提取：数据集、方法和演示

该研究构建了基于文档的对话系统，旨在从视觉丰富的文档（VRD）中提取结构和语义知识，以生成准确的回复，为此创建了一个布局感知的文档级信息提取数据集 LIE，并开发了基准方法考虑人类的布局特征，实验结果表明布局对基于 VRD 的提取至关重要，系统演示也验证了提取的知识能够帮助用户找到关心的答案。LIE 包含来自产品和官方文档中 4,061 页的 62k 注释，成为我们所知最大的基于 VRD 的信息提取数据集。

Jul, 2022

布局融合语言模型对布局分布变化的鲁棒性研究 —— 以科学文献为例

本研究测试了布局增强语言模型对布局变化的鲁棒性，以科学论文结构恢复任务为案例，发现布局分布变化会导致模型性能下降。简单的训练策略可以降低性能下降，但模型无法在任何测试条件下达到样本内性能。本研究强调了在模型评估过程中考虑布局分布变化的必要性，并提出了一种实现方法。

Jun, 2023

LayoutLMv2: 多模态预训练用于视觉丰富的文档理解

LayoutLMv2 提出了一种新的预训练架构，通过在一个多模态框架中建模文本、布局和图像之间的交互以及整合空间感知自注意机制，在预训练阶段更好地捕获跨模态交互，实现在 FUNSD，CORD，SROIE，Kleister-NDA，RVL-CDIP 和 DocVQA 等下游视觉丰富的文档理解任务上新的最先进结果。

Dec, 2020

LayoutLLM：针对视觉丰富文档理解的大语言模型指令调整

本文提出了 LayoutLLM，一种更灵活的文档分析方法，用于理解图像化文档。通过利用现有研究在文档图像理解和大规模语言模型的优势，通过与多模态指令数据集进行微调，提出的模型在单个模型中执行对文档图像的理解，并通过实验证明在各种文档分析任务中改进了基线模型。

Mar, 2024

通过布局结构建模增强视觉丰富文档的理解

我们提出了 GraphLayoutLM 模型，它利用布局结构图的建模将文档布局知识注入模型，使得模型能够理解文本元素的空间排列，以提高文档的理解能力，并在 FUNSD、XFUND 和 CORD 等基准测试中取得了最先进的结果。

Aug, 2023

GeoLayoutLM: 视觉信息提取的几何预训练

本文提出了一种名为 GeolayoutLM 的多模态框架，通过显式地建模提前准备阶段的几何关系来解决 Visual information extraction 领域中 semantic entity recognition 和 relation extraction 模型中的局限性，并在相关基准测试中取得了竞争性的高分数。

Apr, 2023

LAMBERT: 面向布局的（语言）建模用于信息提取

在 OCR 系统获取的布局特征的基础上，改进 Transformer 编码器的结构来构建布局感知的语言模型，展示在信息提取方面的出色性能。

Feb, 2020

自动检测临床文件的布局以提高下游自然语言处理的性能

通过设计新算法提高 PDF 文档的临床内容分析性能，包括文本分类和信息抽取等多个步骤，并在使用医学样例数据进行检验后，成功在临床使用案例中提高了医学概念的信息抽取效率。

May, 2023