RealKIE: 为企业关键信息提取设计的五个新数据集

Mar, 2024

RealKIE: 为企业关键信息提取设计的五个新数据集

RealKIE: Five Novel Datasets for Enterprise Key Information Extraction

Benjamin Townsend, Madison May, Christopher Wells

TL;DRRealKIE 是一个具有五个具有挑战性数据集的基准测试，旨在推进关键信息提取方法，重点关注企业应用。这些数据集包括一系列不同类型的文档，包括 SEC S1 文件，美国保密协议，英国慈善报告，FCC 发票和资源合同。除了介绍这些数据集外，我们还提供了详细的注释过程、文档处理技术和基准建模方法的描述，以促进开发能处理实际挑战并支持研究产业特定问题的信息提取技术的进一步研究。

Abstract

We introduce realkie, a benchmark of five challenging datasets aimed at advancing key →

realkie benchmark information extraction datasets nlp models

发现论文，激发创造

Kleister：涉及复杂版式的长文档关键信息抽取数据集

引入了 Kleister NDA 和 Kleister Charity 两组数据集，综合文本和结构排版特征去识别和推理各种类型的实体，包括机构、人物和时间等，通过对 Flair、BERT、RoBERTa、LayoutLM 和 LAMBERT 等多个 KIE 领域基线系统的测试，得出我们的数据集对于现有模型具有很强的挑战性，并提供数据集以促进更深入和复杂的信息提取任务。

May, 2021

KVP10k: 商业文件中键值对提取的全面数据集

最近几年来，从商业文件中提取信息的挑战已成为一项关键任务，在许多领域找到了应用。本文引起了工业界和学术界的广泛兴趣，突显了其在当前技术环境中的重要性。与大多数现有数据集和基准不同，我们的重点是在没有预先定义的键的情况下发现键值对，通过导航复杂模板和布局的数组来提取信息。为了弥补这一差距，我们介绍了 KVP10k，一个专门设计用于 KVP 提取的新数据集和基准。该数据集包含 10707 个丰富注释的图像。在我们的基准中，我们还引入了一个新的具有 KIE 和 KVP 元素的具有挑战性的任务。KVP10k 以其广泛的数据多样性和详细的注释而独树一帜，为从复杂商业文件中提取信息的领域的进展铺平了道路。

May, 2024

商业文件信息提取：朝着实用基准的方向

本文研究信息提取的问题，探讨了文档信息提取问题、数据集、基准测试等方面，提出了机器学习中的关键信息定位、提取和条目识别问题，并批评了目前缺乏半结构化商务文档的相关数据集和基准测试。

Jun, 2022

DocILE 2023：文档信息本地化与提取

该研究提供了一个大规模的公开数据集：DocILE，用于从半结构化商业文件中提取关键信息和识别项目行。该数据集将用于业界的基准测试，并鼓励计算机视觉、自然语言处理和信息检索等领域的贡献。

Jan, 2023

GenKIE：鲁棒的生成多模态文档关键信息抽取

提出了一种名为 GenKIE 的新型生成式端到端模型，利用多模态编码器嵌入视觉、版面布局和文本特征，并利用解码器生成所需的输出，从而解决了来自扫描文档的关键信息抽取任务。实验证明 GenKIE 能够有效泛化到不同类型的文档，并在 OCR 错误方面表现出鲁棒性，因此在实际场景中具有广泛的应用前景。

Oct, 2023

LDKP: 从长篇科技文档中鉴别关键词短语的数据集

该研究发布了两份研究文献语料库，包括约 130 万篇和 10 万篇科学论文的完整抽取文本和附加元数据，有助于实现从科学文章中提取关键短语的任务。

Mar, 2022

使用任务优化实现端到端文档分类和关键信息提取

本文提出了一种基于端到端文档分类和关键信息提取的表格自动处理方法，其中采用了文本和布局编码技术，利用余弦相似度度量来对视觉上相似的文档进行分类，进而使用混合整数规划来提取文档中的关键信息，实验表明本方法对于文档预处理等优化技术具有重要作用，并取得了令人满意的实验效果。

Jun, 2023

DocILE 文件信息定位与提取基准测试

本文介绍了 DocILE 数据集及其应用，它包括 6.7K 个注释的商业文件、100K 个合成文件和近 1M 个未标记的文件，旨在为关键信息定位和提取以及行项目识别等任务提供基准，并提供了几个基线模型，包括 RoBERTa、LayoutLMv3 和 DETR-based Table Transformer。

Feb, 2023

解锁科学：跨模态科学信息提取的新型数据集和基准

从科学论文中提取关键信息有助于研究人员提高工作效率并加快科学进展的速度。在过去几年里，科学信息提取（SciIE）的研究见证了数个新系统和基准的发布。然而，现有以论文为中心的数据集主要只关注论文的特定部分（例如摘要），且为单模态（即只有文本或表格），这是因为处理复杂性和高昂的注释费用所导致。此外，核心信息可能存在于文本或表格中，或者跨越二者。为弥补这一数据可用性的差距并实现跨模态信息提取，同时减轻标注成本，我们提出了一个半监督的流程，用于迭代地对文本中的实体、以及表格中的实体和关系进行注释。基于此流程，我们为科学界提供了一些新资源，包括一个高质量的基准、一个大型语料库和一个半监督的注释流程。我们进一步报告了最先进的信息提取模型在提出的基准数据集上的性能作为一个基准。最后，我们探索了像 ChatGPT 这样的大型语言模型在当前任务中的潜在能力。我们的新数据集、结果和分析验证了半监督流程的有效性和效率，同时我们也讨论了其剩余的局限性。

Nov, 2023

使用改进的图学习卷积网络从文档中提取关键信息的 PICK 技术

该文介绍了使用图形学习与图形卷积操作相结合的 PICK 框架，以处理 KIE 中复杂文档布局，从而获得包含文本和视觉特征和全局布局的更丰富的语义表示，并通过实验表明了该方法的性能优于基线方法。

Apr, 2020