信息提取的易到难学习

ACLMay, 2023

Easy-to-Hard Learning for Information Extraction

Chang Gao, Wenxuan Zhang, Wai Lam, Lidong Bing

TL;DR本文针对信息提取系统在不同任务之间交互存在困难的问题，提出了一种易于模仿人类学习过程的三阶段联合学习框架，该框架可以使模型更好地学习不同任务之间的知识和提高其泛化能力，在四项 IE 任务上进行的广泛实验表明了本框架的有效性。

Abstract

information extraction (IE) systems aim to automatically extract structured information, such as named entities, relations between entities, and events, from unstructured texts. While most existing work addresses a particular IE task, universally →

information extraction structured information modeling learning framework generalization ability

发现论文，激发创造

将深度学习与逻辑融合应用于信息抽取

本文提出了将逻辑知识集成入深度学习系统中的方法来优化信息提取任务，通过逻辑规则，能够结合深度学习的优点来增强模型的泛化性能。

Dec, 2019

半结构化文档图像的高性价比端到端信息提取

本文提出了通过将文档信息抽取 (IE) 作为序列生成任务的方式，将现有的基于流水线的 IE 系统转变为端到端系统的尝试，着重解决了大规模实际部署所涉及的实际挑战，并证明了单个端到端 IE 系统仍然能够实现竞争性能。

Apr, 2021

PyTorch-IE：信息提取的快速可重现原型设计

信息抽取（IE）旨在从非结构化或半结构化文档中导出结构化表示。本研究提出了 PyTorch-IE，一种基于深度学习的框架，旨在实现 IE 模型的快速、可重复和可重用的实现。PyTorch-IE 提供了灵活的数据模型，能够通过集成来自各种数据类型（如纯文本或半结构化文本以及图像）的相互依赖的注释层来创建复杂的数据结构。通过提供对 PyTorch-Lightning 用于训练、HuggingFace 数据集用于数据集读取和 Hydra 用于实验配置等广泛使用的库的支持，PyTorch-IE 为信息抽取领域的研究社区提供了重要的支持。

May, 2024

大型语言模型用于生成式信息提取：一项综述

信息提取是从自然语言文本中提取结构化知识（如实体、关系和事件）的过程。最近，生成式大型语言模型（LLMs）在文本理解和生成方面展示出了显著的能力，允许在各个领域和任务中进行概括。为了对 LLMs 在信息提取任务中的努力进行全面系统的回顾和探索，我们通过调查这个领域的最新进展来进行研究。我们首先通过以各种信息提取子任务和学习范式进行分类来呈现一个全面的概述，然后我们经验性地分析最先进的方法并发现使用 LLMs 的信息提取任务的新兴趋势。通过进行彻底审查，我们确定了一些技术见解和有希望进一步探索的研究方向，值得在未来研究中持续探索。我们在以下网址维护一个公共资源库并定期更新相关资源：https://github.com/quqxui/Awesome-LLM4IE-Papers。

Dec, 2023

通用信息提取作为统一语义匹配

本文提出了一种基于统一语义匹配框架的信息提取方法，解决了传统方法因具体任务需定制模型且仅能适用于有见过的数据集的问题，通过对信息提取进行结构化和概念化两个基本能力的分离并引入三个统一的标记链接操作，在 4 个 IE 任务中达到了最先进的性能并表现出了强大的泛化能力。

Jan, 2023

通用信息提取的统一结构生成

本文提出了一种名为 UIE 的统一文本到结构生成框架，可通用地模拟不同的信息提取任务，通过基于模式的指示器机制自适应生成目标结构，并通过大规模的预训练文本到结构模型捕捉共同的信息提取能力。实验结果显示，UIE 在四个 IE 任务、13 个数据集和不同的实验条件下实现了最先进的性能，验证了其有效性、通用性和可迁移性。

Mar, 2022

从 LLM 中提炼元模型用于各类信息提取任务

我们提出了一个称为 MetaIE 的新框架，通过学习提取 “重要信息” 来构建一个小型元模型，使得这个元模型可以有效和高效地适应各种信息提取任务，在少样本适应设置下获得更好的性能。

Mar, 2024

文档级信息提取概览

这篇综述研究对最近的文档级信息抽取文献进行了系统回顾，通过与当前最先进的算法进行彻底的错误分析，确定它们的局限性以及文档级信息抽取任务的剩余挑战，包括标签误差、实体关联解析和缺乏推理，严重影响文档级信息抽取的性能。本综述的目标是为 NLP 研究人员提供更多见解，帮助进一步提高文档级信息抽取的性能。

Sep, 2023

InteractiveIE: 评估人工智能协作强度，提高信息提取性能

本文探讨在缺乏预定义模板情况下，如何从零或最少的监督中从文档中归纳模板，以及如何使用自动问答生成来实现这个目标，结合少量人工监督提高模型的性能。实验结果表明，这种 InteractiveIE 方法在对昂贵的生物医药和法律文件进行信息提取时能够带来良好的性能提升。

May, 2023

非法领域中的信息提取

本论文提出了一种轻量级的特征无关的信息提取（IE）范例，可以处理语言模式不规范、长尾概念漂移等问题，特别适用于人口贩卖等非法领域；经验证明，在低监督和高监督设置下，该范例可以比传统的基于特征的条件随机场提升 18％以上的 F - 度量，并且能够漂移概念稳定性高。

Mar, 2017