基于布局的文档驱动对话信息提取：数据集、方法和演示

MMJul, 2022

基于布局的文档驱动对话信息提取：数据集、方法和演示

Layout-Aware Information Extraction for Document-Grounded Dialogue: Dataset, Method and Demonstration

Zhenyu Zhang, Bowen Yu, Haiyang Yu, Tingwen Liu, Cheng Fu...

TL;DR该研究构建了基于文档的对话系统，旨在从视觉丰富的文档（VRD）中提取结构和语义知识，以生成准确的回复，为此创建了一个布局感知的文档级信息提取数据集 LIE，并开发了基准方法考虑人类的布局特征，实验结果表明布局对基于 VRD 的提取至关重要，系统演示也验证了提取的知识能够帮助用户找到关心的答案。LIE 包含来自产品和官方文档中 4,061 页的 62k 注释，成为我们所知最大的基于 VRD 的信息提取数据集。

Abstract

Building document-grounded dialogue systems have received growing interest as documents convey a wealth of human knowledge and commonly exist in enterprises. Wherein, how to comprehend and retrieve information from documents is a challenging research problem. Previous work ignores the

document-grounded dialogue systems information extraction visually rich documents layout-aware dataset semantic knowledge

发现论文，激发创造

具有布局感知能力的基于预训练语言模型的视觉丰富文档信息抽取方法

本文研究信息提取的问题，使用大型预训练语言模型和图神经网络相结合的模型来高效地编码视觉和文本信息，并引入新的微调目标，通过使用大量未标记的领域内数据来改善领域内无监督微调。我们在真实世界的发票和简历数据集上进行了实验，并表明所提出的方法在发票上的绝对 F1 比强文本基线高出 6.3％，在简历中 F1 绝对值增加了 4.7％。在少数样本情况下，我们的方法需要比基线少 30 倍的批注数据才能在约 90％的 F1 达到相同的性能水平。

May, 2020

基于 LayoutLMv3 的增强关系抽取模型在视觉丰富文档中的应用

通过对 FUNSD 和 CORD 数据集上进行的广泛剖析研究及对 LayoutLMv3 的初始化，我们提出了一个模型，用于在视觉丰富的文档中进行关系抽取，其结果超过了当前行业的最佳效果，且没有特定的预训练任务和较少的参数。

Apr, 2024

LAMBERT: 面向布局的（语言）建模用于信息提取

在 OCR 系统获取的布局特征的基础上，改进 Transformer 编码器的结构来构建布局感知的语言模型，展示在信息提取方面的出色性能。

Feb, 2020

现实世界中稳健的视觉信息提取：新数据集和新方法

本文提出了一种鲁棒的视觉信息提取系统（VIES），它是一个统一的端到端可训练框架，用于同时进行文本检测、识别和信息提取。同时，本文构建了一个名为 EPHOIE 的数据集，它是用于文本定位和视觉信息提取的第一个中文基准数据集。与最先进的方法相比，我们的系统在 EPHOIE 数据集上取得了显著的优异表现，在 SROIE 数据集的端到端情况下，F 分数提高了 9.01％。

Jan, 2021

野外环境下的视觉信息提取：实用数据集和端到端解决方案

该论文提出了一个更实际的数据集和一种新颖的端到端学习框架，通过对比学习缩小 OCR 和信息提取任务之间的语义差距来实现 VIE，然后在这个新数据集上评估现有的 VIE 方法并展示了性能提升。

May, 2023

GeoLayoutLM: 视觉信息提取的几何预训练

本文提出了一种名为 GeolayoutLM 的多模态框架，通过显式地建模提前准备阶段的几何关系来解决 Visual information extraction 领域中 semantic entity recognition 和 relation extraction 模型中的局限性，并在相关基准测试中取得了竞争性的高分数。

Apr, 2023

具有复杂布局的历史日本文件大型数据集

本文介绍了一种使用 HJDataset 的深度学习方法，可以准确地分析历史日文文档的布局并提取内容。该数据集包含 250,000 多个布局元素注释和基于半规则的方法构建，旨在提供深度学习模型的基准性能分析。

Apr, 2020

DocILE 文件信息定位与提取基准测试

本文介绍了 DocILE 数据集及其应用，它包括 6.7K 个注释的商业文件、100K 个合成文件和近 1M 个未标记的文件，旨在为关键信息定位和提取以及行项目识别等任务提供基准，并提供了几个基线模型，包括 RoBERTa、LayoutLMv3 和 DETR-based Table Transformer。

Feb, 2023

迈向类人机理解：在视觉丰富文档中的少样关系学习

通过引入两个新的少样本基准数据集，本研究针对可视化丰富的文档（VRD）中的键 - 值关系三元组的提取，提出了一种变分方法，其中包含关系 2D 空间先验知识和原型化校正技术，实验结果表明该方法的有效性，并为实际应用开辟了新的可能性。

Mar, 2024

LMDX：基于语言模型的文件信息提取与定位

基于语言模型的文档信息提取与定位 (LMDX) 方法应用于 PaLM 2-S 模型，通过引入布局编码和保证准确性的基础机制，从视觉丰富的文档中提取出奇异、重复和分层实体，为创建高质量、高效数据分析器创造了新的技术突破。

Sep, 2023