半结构化文档图像的高性价比端到端信息提取

EMNLPApr, 2021

半结构化文档图像的高性价比端到端信息提取

Cost-effective End-to-end Information Extraction for Semi-structured Document Images

Wonseok Hwang, Hyunji Lee, Jinyeong Yim, Geewook Kim, Minjoon Seo

TL;DR本文提出了通过将文档信息抽取 (IE) 作为序列生成任务的方式，将现有的基于流水线的 IE 系统转变为端到端系统的尝试，着重解决了大规模实际部署所涉及的实际挑战，并证明了单个端到端 IE 系统仍然能够实现竞争性能。

Abstract

A real-world information extraction (IE) system for semi-structured document images often involves a long pipeline of multiple modules, whose complexity dramatically increases its development and maintenance cost. One can instead consider an →

information extraction semi-structured documents end-to-end model sequence generation large-scale production

发现论文，激发创造

信息提取的易到难学习

本文针对信息提取系统在不同任务之间交互存在困难的问题，提出了一种易于模仿人类学习过程的三阶段联合学习框架，该框架可以使模型更好地学习不同任务之间的知识和提高其泛化能力，在四项 IE 任务上进行的广泛实验表明了本框架的有效性。

May, 2023

面向统计法律分析的数据高效端到端信息提取

该研究介绍了一种用于法律文件信息抽取的端到端系统，实验结果表明，该系统可以在少于 50 个训练样本的情况下比基于规则的基线方法得到更好的结果，并且使用 200 个样本可以得到更高的得分，并且使用这个系统从醉酒驾驶和欺诈两个案例类别的 3.5 万个案例中抽取出的结构化信息真实反映了韩国法律系统的宏观特征。

Nov, 2022

TRIE：端到端文本阅读和信息提取以实现文档理解

本文提出了一种统一的端到端文本阅读和信息提取网络，通过融合文本阅读的多模态视觉和文本特征来实现信息提取，并且信息提取中的语义有助于优化文本阅读，该方法在真实世界的数据集上表现出比现有方法更高的效率和准确性。

May, 2020

PyTorch-IE：信息提取的快速可重现原型设计

信息抽取（IE）旨在从非结构化或半结构化文档中导出结构化表示。本研究提出了 PyTorch-IE，一种基于深度学习的框架，旨在实现 IE 模型的快速、可重复和可重用的实现。PyTorch-IE 提供了灵活的数据模型，能够通过集成来自各种数据类型（如纯文本或半结构化文本以及图像）的相互依赖的注释层来创建复杂的数据结构。通过提供对 PyTorch-Lightning 用于训练、HuggingFace 数据集用于数据集读取和 Hydra 用于实验配置等广泛使用的库的支持，PyTorch-IE 为信息抽取领域的研究社区提供了重要的支持。

May, 2024

无需标记级监督的端到端信息提取

本文提出了一种基于指针网络的端到端模型，可以在不需要 token 级标签的情况下直接从原始文本和输出文本对中训练模型，该模型在 ATIS 数据集、MIT 餐厅语料库和 MIT 电影语料库上进行了评估，并与使用 token 级标签的神经基线进行了比较，取得了与基线几乎相同的竞争结果，证明了在不需要 token 级标签的情况下实现端到端信息提取的可行性。

Jul, 2017

商业文件信息提取：朝着实用基准的方向

本文研究信息提取的问题，探讨了文档信息提取问题、数据集、基准测试等方面，提出了机器学习中的关键信息定位、提取和条目识别问题，并批评了目前缺乏半结构化商务文档的相关数据集和基准测试。

Jun, 2022

文档级信息提取概览

这篇综述研究对最近的文档级信息抽取文献进行了系统回顾，通过与当前最先进的算法进行彻底的错误分析，确定它们的局限性以及文档级信息抽取任务的剩余挑战，包括标签误差、实体关联解析和缺乏推理，严重影响文档级信息抽取的性能。本综述的目标是为 NLP 研究人员提供更多见解，帮助进一步提高文档级信息抽取的性能。

Sep, 2023

文档级信息抽取自动错误分析

本研究提出通过基于转换的框架实现文档级事件和关系提取自动化错误分析，进而比较两种最先进的模板填充方法在三个领域的数据集上的表现，并对信息提取领域自其 30 年前创始以来的发展进行了评估。

Sep, 2022

通用信息提取作为统一语义匹配

本文提出了一种基于统一语义匹配框架的信息提取方法，解决了传统方法因具体任务需定制模型且仅能适用于有见过的数据集的问题，通过对信息提取进行结构化和概念化两个基本能力的分离并引入三个统一的标记链接操作，在 4 个 IE 任务中达到了最先进的性能并表现出了强大的泛化能力。

Jan, 2023

野外环境下的视觉信息提取：实用数据集和端到端解决方案

该论文提出了一个更实际的数据集和一种新颖的端到端学习框架，通过对比学习缩小 OCR 和信息提取任务之间的语义差距来实现 VIE，然后在这个新数据集上评估现有的 VIE 方法并展示了性能提升。

May, 2023