DocILE 2023：文档信息本地化与提取

Jan, 2023

DocILE 2023：文档信息本地化与提取

DocILE 2023 Teaser: Document Information Localization and Extraction

Štěpán Šimsa, Milan Šulc, Matyáš Skalický, Yash Patel, Ahmed Hamdi

TL;DR该研究提供了一个大规模的公开数据集：DocILE，用于从半结构化商业文件中提取关键信息和识别项目行。该数据集将用于业界的基准测试，并鼓励计算机视觉、自然语言处理和信息检索等领域的贡献。

Abstract

The lack of data for information extraction (IE) from semi-structured business documents is a real problem for the IE community. Publications relying on large-scale datasets use only proprietary, unpublished

information extraction semi-structured business documents data benchmark docile

发现论文，激发创造

DocILE 文件信息定位与提取基准测试

本文介绍了 DocILE 数据集及其应用，它包括 6.7K 个注释的商业文件、100K 个合成文件和近 1M 个未标记的文件，旨在为关键信息定位和提取以及行项目识别等任务提供基准，并提供了几个基线模型，包括 RoBERTa、LayoutLMv3 和 DETR-based Table Transformer。

Feb, 2023

商业文件信息提取：朝着实用基准的方向

本文研究信息提取的问题，探讨了文档信息提取问题、数据集、基准测试等方面，提出了机器学习中的关键信息定位、提取和条目识别问题，并批评了目前缺乏半结构化商务文档的相关数据集和基准测试。

Jun, 2022

RealKIE: 为企业关键信息提取设计的五个新数据集

RealKIE 是一个具有五个具有挑战性数据集的基准测试，旨在推进关键信息提取方法，重点关注企业应用。这些数据集包括一系列不同类型的文档，包括 SEC S1 文件，美国保密协议，英国慈善报告，FCC 发票和资源合同。除了介绍这些数据集外，我们还提供了详细的注释过程、文档处理技术和基准建模方法的描述，以促进开发能处理实际挑战并支持研究产业特定问题的信息提取技术的进一步研究。

Mar, 2024

COLIEE 2023 的 CAPTAIN：法律信息检索和蕴含任务的高效方法

该论文介绍了在 COLIEE 2023 竞赛中处理 Task 2、Task 3 和 Task 4 的策略，使用了先进的深度学习方法、基于领域特征观察的设计方法，以及严谨的工程实践和方法论，在这些任务中取得了优秀的成绩，并在 Task 2 和 Task 3 中获得了第一名，Task 4 中也有良好结果。源代码可在指定的 URL 获得。

Jan, 2024

Kleister：涉及复杂版式的长文档关键信息抽取数据集

引入了 Kleister NDA 和 Kleister Charity 两组数据集，综合文本和结构排版特征去识别和推理各种类型的实体，包括机构、人物和时间等，通过对 Flair、BERT、RoBERTa、LayoutLM 和 LAMBERT 等多个 KIE 领域基线系统的测试，得出我们的数据集对于现有模型具有很强的挑战性，并提供数据集以促进更深入和复杂的信息提取任务。

May, 2021

解锁科学：跨模态科学信息提取的新型数据集和基准

从科学论文中提取关键信息有助于研究人员提高工作效率并加快科学进展的速度。在过去几年里，科学信息提取（SciIE）的研究见证了数个新系统和基准的发布。然而，现有以论文为中心的数据集主要只关注论文的特定部分（例如摘要），且为单模态（即只有文本或表格），这是因为处理复杂性和高昂的注释费用所导致。此外，核心信息可能存在于文本或表格中，或者跨越二者。为弥补这一数据可用性的差距并实现跨模态信息提取，同时减轻标注成本，我们提出了一个半监督的流程，用于迭代地对文本中的实体、以及表格中的实体和关系进行注释。基于此流程，我们为科学界提供了一些新资源，包括一个高质量的基准、一个大型语料库和一个半监督的注释流程。我们进一步报告了最先进的信息提取模型在提出的基准数据集上的性能作为一个基准。最后，我们探索了像 ChatGPT 这样的大型语言模型在当前任务中的潜在能力。我们的新数据集、结果和分析验证了半监督流程的有效性和效率，同时我们也讨论了其剩余的局限性。

Nov, 2023

基于布局的文档驱动对话信息提取：数据集、方法和演示

该研究构建了基于文档的对话系统，旨在从视觉丰富的文档（VRD）中提取结构和语义知识，以生成准确的回复，为此创建了一个布局感知的文档级信息提取数据集 LIE，并开发了基准方法考虑人类的布局特征，实验结果表明布局对基于 VRD 的提取至关重要，系统演示也验证了提取的知识能够帮助用户找到关心的答案。LIE 包含来自产品和官方文档中 4,061 页的 62k 注释，成为我们所知最大的基于 VRD 的信息提取数据集。

Jul, 2022

基于深度学习与基于规则的修正在采购文件中的关键信息提取

本文利用深度学习和基于规则的矫正技术对采购文件中的重要信息进行提取，通过实验证明规则矫正技术对于基于深度学习的分类结果有着显著的提升。

Oct, 2022

IEPile: 挖掘大规模基于模式的信息抽取语料库

通过构建综合的双语（英语和汉语）信息抽取指示语料库 IEPile，可以提高大语言模型在信息抽取中的性能，尤其是零样本泛化能力。

Feb, 2024

检索增强的结构化生成：以工商文档信息提取为工具使用

商业文档信息提取（BDIE）是将一大段非结构化信息（原始文本、扫描文档等）转换为下游系统可以解析和使用的结构化格式的问题。本文提出了一种名为 RASG 的检索增强结构化生成的新的 BDIE 框架，它在 BDIE 基准测试中实现了最先进的 KIE 任务和 LIR 任务的结果。

May, 2024