基于 LayoutLMv3 的增强关系抽取模型在视觉丰富文档中的应用

Apr, 2024

基于 LayoutLMv3 的增强关系抽取模型在视觉丰富文档中的应用

A LayoutLMv3-Based Model for Enhanced Relation Extraction in Visually-Rich Documents

Wiam Adnan, Joel Tang, Yassine Bel Khayat Zouggari, Seif Edinne Laatiri, Laurent Lam...

TL;DR通过对 FUNSD 和 CORD 数据集上进行的广泛剖析研究及对 LayoutLMv3 的初始化，我们提出了一个模型，用于在视觉丰富的文档中进行关系抽取，其结果超过了当前行业的最佳效果，且没有特定的预训练任务和较少的参数。

Abstract

document understanding is an evolving field in Natural Language Processing (NLP). In particular, visual and spatial features are essential in addition to the raw text itself and hence, several multimodal models were developed in the field of Visual →

document understanding visual document understanding key information extraction relation extraction visually-rich documents

发现论文，激发创造

在信息丰富的文档中以依赖解析的方式提取实体关系

本文使用 biaffine 解析模型，通过布局信息提取视觉信息中的实体关系，成功运用于生产环境。

Oct, 2021

关系提取的单模态和多模态表示训练

通过排除每种数据类型并独立评估文本和布局数据，我们研究了文本、布局和视觉信息的相对预测能力，证明了针对关系提取任务训练联合表示的有效性。我们的实验表明，双模态的文本和布局方法表现最佳，同时文本是最重要的单一预测因子，布局几何形状也具有高度预测能力。此外，我们强调在哪些情况下视觉信息可以增强性能。

Nov, 2022

具有布局感知能力的基于预训练语言模型的视觉丰富文档信息抽取方法

本文研究信息提取的问题，使用大型预训练语言模型和图神经网络相结合的模型来高效地编码视觉和文本信息，并引入新的微调目标，通过使用大量未标记的领域内数据来改善领域内无监督微调。我们在真实世界的发票和简历数据集上进行了实验，并表明所提出的方法在发票上的绝对 F1 比强文本基线高出 6.3％，在简历中 F1 绝对值增加了 4.7％。在少数样本情况下，我们的方法需要比基线少 30 倍的批注数据才能在约 90％的 F1 达到相同的性能水平。

May, 2020

基于布局的文档驱动对话信息提取：数据集、方法和演示

该研究构建了基于文档的对话系统，旨在从视觉丰富的文档（VRD）中提取结构和语义知识，以生成准确的回复，为此创建了一个布局感知的文档级信息提取数据集 LIE，并开发了基准方法考虑人类的布局特征，实验结果表明布局对基于 VRD 的提取至关重要，系统演示也验证了提取的知识能够帮助用户找到关心的答案。LIE 包含来自产品和官方文档中 4,061 页的 62k 注释，成为我们所知最大的基于 VRD 的信息提取数据集。

Jul, 2022

RE$^2$: 基於視覺豐富文件的區域感知關係抽取

本文提出了一种基于区域感知的关系抽取方法 (RE$^2$)，它利用边缘感知的图注意力网络学习实体之间的交互，并考虑实体之间由其区域级表示定义的空间关系，同时引入约束目标以使模型符合关系抽取任务的内在约束。实验结果表明，我们的方法在各种数据集、语言和领域中具有优越性。

May, 2023

GeoLayoutLM: 视觉信息提取的几何预训练

本文提出了一种名为 GeolayoutLM 的多模态框架，通过显式地建模提前准备阶段的几何关系来解决 Visual information extraction 领域中 semantic entity recognition 和 relation extraction 模型中的局限性，并在相关基准测试中取得了竞争性的高分数。

Apr, 2023

迈向类人机理解：在视觉丰富文档中的少样关系学习

通过引入两个新的少样本基准数据集，本研究针对可视化丰富的文档（VRD）中的键 - 值关系三元组的提取，提出了一种变分方法，其中包含关系 2D 空间先验知识和原型化校正技术，实验结果表明该方法的有效性，并为实际应用开辟了新的可能性。

Mar, 2024

视觉丰富文档中的关系表示学习

本研究提出了 DocReL，一种文本关系表示学习框架，其中包含一种新的对比学习任务 Relational Consistency Modeling（RCM），并利用了上下文信息来改进视觉丰富文档中关系理解，如表结构识别，关键信息提取和阅读顺序检测。

May, 2022

AutoRE：基于大型语言模型的文档级关系抽取

通过引入 AutoRE 模型和 RHF (Relation-Head-Facts) 的新型 RE 提取范式，结合 QLoRA (Parameters Efficient Fine Tuning) 算法构建了一个易于扩展的 DocRE 框架，在 RE-DocRED 数据集上展现了最佳性能，超过 dev 和 test 集合上分别为 TAG 10.03% 和 9.03% 的最新结果。

Mar, 2024

在检索增强生成框架中使用经过微调的大型语言模型进行关系抽取

Fine-tuned large language models integrated into the Retrieval-Augmented-based approach demonstrate exceptional performance in identifying implicit relations, surpassing previous results on SemEVAL and achieving substantial gains on TACRED, TACREV, and Re-TACRED datasets.

Jun, 2024