BuDDIE：一个用于多任务信息提取的商业文档数据集

Apr, 2024

BuDDIE：一个用于多任务信息提取的商业文档数据集

BuDDIE: A Business Document Dataset for Multi-task Information Extraction

Ran Zmigrod, Dongsheng Wang, Mathieu Sibue, Yulong Pei, Petr Babkin...

TL;DR通过介绍 BuDDIE（商业文档信息抽取数据集），本文提供了一个包含丰富且稠密注释的多任务数据集，其中包含 1,665 个现实世界商业文档。该数据集涵盖了文档分类、关键实体提取和视觉问答等多个任务，并提供了每个任务的基线结果。

Abstract

The field of visually rich document understanding (VRDU) aims to solve a multitude of well-researched NLP tasks in a multi-modal domain. Several datasets exist for research on specific tasks of VRDU such as docum

visually rich document understanding multi-modal domain buddie business document dataset information extraction

发现论文，激发创造

文档理解数据集与评估（DUDE）

本文探讨文档人工智能 (Document AI) 社区重新评估当前的方法学，并挑战创建更具实际意义的基准标准的任务。文档理解数据集和评估 (DUDE) 旨在纠正在理解视觉丰富文档方面的研究进展。我们提出了新的数据集，其中包含来自各个行业、领域和多页的视觉丰富文档的各种问题、答案和布局。此外，我们通过创建多任务和多领域的评估设置来推动当前方法的界限，以更准确地模拟真实世界中强大的泛化和适应低资源环境的需求。通过 DUDE 旨在为社区树立一个更实用、长期的基准标准，并希望它将导致未来的扩展和贡献，以应对实际挑战。最后，我们的工作说明了在文档人工智能中寻找更有效的方式来对语言、图像和布局进行建模的重要性。

May, 2023

从复杂文档中提取结构化信息的基准测试

本文提出一个名为 VRDU 的用于评价文档中网络结构、多样的数据类型以及丰富的模板和布局等不同因素综合作用的数据集，并在此基础上设计实验模型，评估文档中结构化数据提取的性能。作者发现，此类任务中面对新模板挑战较大，而针对该问题，本文也提出了一种 few-shot learning 的方法。

Nov, 2022

大规模无噪声预训练下的文档实体检索

本文提出了一种从网络上收集海量、嘈杂、弱标注数据的方法，以弥补许多 VDER 设置中训练数据不足的缺陷，也给出了一个名为 DocuNet 的收集数据集，它不需要依赖特定文档类型或实体集，从而在各种 VDER 任务中通用应用。借助 DocuNet，我们提出了一种轻量级多模态体系结构 UniFormer，在没有额外的视觉相关性的情况下从文本、布局和图像裁剪中学习统一的表征。在不同的设置中实验我们的方法并展示了在传统实体检索和少样本学习设置中，当将这个大规模数据集与 UniFormer 相结合时的改进。

Jun, 2023

基于布局的文档驱动对话信息提取：数据集、方法和演示

该研究构建了基于文档的对话系统，旨在从视觉丰富的文档（VRD）中提取结构和语义知识，以生成准确的回复，为此创建了一个布局感知的文档级信息提取数据集 LIE，并开发了基准方法考虑人类的布局特征，实验结果表明布局对基于 VRD 的提取至关重要，系统演示也验证了提取的知识能够帮助用户找到关心的答案。LIE 包含来自产品和官方文档中 4,061 页的 62k 注释，成为我们所知最大的基于 VRD 的信息提取数据集。

Jul, 2022

RealKIE: 为企业关键信息提取设计的五个新数据集

RealKIE 是一个具有五个具有挑战性数据集的基准测试，旨在推进关键信息提取方法，重点关注企业应用。这些数据集包括一系列不同类型的文档，包括 SEC S1 文件，美国保密协议，英国慈善报告，FCC 发票和资源合同。除了介绍这些数据集外，我们还提供了详细的注释过程、文档处理技术和基准建模方法的描述，以促进开发能处理实际挑战并支持研究产业特定问题的信息提取技术的进一步研究。

Mar, 2024

面向任务个性化的多模态少样本学习在视觉丰富的文档实体检索中的应用

本研究旨在解决实体级少样本视觉文档实体检索 (VDER) 任务的挑战，并通过引入任务感知的元学习框架以及新的数据集 FewVEX，显著提高了流行的元学习基准模型的鲁棒性。

Nov, 2023

检索增强的结构化生成：以工商文档信息提取为工具使用

商业文档信息提取（BDIE）是将一大段非结构化信息（原始文本、扫描文档等）转换为下游系统可以解析和使用的结构化格式的问题。本文提出了一种名为 RASG 的检索增强结构化生成的新的 BDIE 框架，它在 BDIE 基准测试中实现了最先进的 KIE 任务和 LIR 任务的结果。

May, 2024

DocILE 文件信息定位与提取基准测试

本文介绍了 DocILE 数据集及其应用，它包括 6.7K 个注释的商业文件、100K 个合成文件和近 1M 个未标记的文件，旨在为关键信息定位和提取以及行项目识别等任务提供基准，并提供了几个基线模型，包括 RoBERTa、LayoutLMv3 和 DETR-based Table Transformer。

Feb, 2023

InstructDoc：一份用于指令驱动的视觉文档理解零样本泛化的数据集

我们研究通过人工编写的指令，在真实世界的文档上完成各种视觉文档理解（VDU）任务，例如问答和信息提取。为此，我们提出了 InstructDoc，这是第一个包含 30 个公开可用的 VDU 数据集的大规模集合，每个数据集都有统一格式的多样指令，涵盖了 12 项不同任务并包括多种文档类型 / 格式。此外，为了提高 VDU 任务的泛化性能，我们设计了一种新的基于指令的文档阅读和理解模型 InstructDr，通过可训练的桥接模块连接了文档图像，图像编码器和大型语言模型（LLMs）。实验证明，通过给定的指令，InstructDr 能够有效适应新的 VDU 数据集、任务和领域，且胜过现有的多模态 LLMs 和 ChatGPT 无需特定训练。

Jan, 2024

DWIE: 一个面向实体为中心的多任务文本级信息抽取数据集

本文介绍了 DWIE，即 “德国之声信息提取语料库”，它是一个多任务数据集，结合了四个主要的信息提取子任务：命名实体识别，共指解析，关系抽取和实体链接。该数据集是以实体为中心的，描述了概念实体的交互和属性，并提出了一种新的基于实体的度量标准以及基于图神经网络的模型用于跨文档共享信息跨任务训练。实验表明，这个模型在 DWIE 数据集上取得了 5.5 个 F1 的提升，因此具有促进多任务信息提取中的图神经网络表示学习方面的研究潜力。

Sep, 2020