非法领域中的信息提取

WWWMar, 2017

Information Extraction in Illicit Domains

Mayank Kejriwal, Pedro Szekely

TL;DR本论文提出了一种轻量级的特征无关的信息提取（IE）范例，可以处理语言模式不规范、长尾概念漂移等问题，特别适用于人口贩卖等非法领域；经验证明，在低监督和高监督设置下，该范例可以比传统的基于特征的条件随机场提升 18％以上的 F - 度量，并且能够漂移概念稳定性高。

Abstract

Extracting useful entities and attribute values from illicit domains such as human trafficking is a challenging problem with the potential for widespread social impact. Such domains employ atypical language model

information extraction illicit domains human trafficking concept drift robustness

发现论文，激发创造

WebIE: 在网络上进行忠实和稳健的信息提取

本文提出了 WebIE 数据集，其中包括 1.6M 个句子及其详细注释。基于此数据集，我们评估了基于生成模型的信息提取模型的跨域和跨语言性能，并提出了三种训练策略。我们的实验表明，实体链接方式得到明显提高。

May, 2023

信息提取的易到难学习

本文针对信息提取系统在不同任务之间交互存在困难的问题，提出了一种易于模仿人类学习过程的三阶段联合学习框架，该框架可以使模型更好地学习不同任务之间的知识和提高其泛化能力，在四项 IE 任务上进行的广泛实验表明了本框架的有效性。

May, 2023

领域和通用文件中的信息提取：启发式和数据驱动方法的研究结果

本项研究探讨了信息抽取中文档体类别和长度对常用方法的影响，特别是对具有文本挖掘任务价值的命名实体识别和语义角色标注有着重要的启示。

Jun, 2023

利用背景与限制条件改善对人口贩卖网页的地理标记

该论文使用整数线性规划模型，结合上下文、限制条件和开放的地理名称知识库来提高人口贩卖定位标记的精度和 F - 度量。实验结果表明，相比于基于机器学习的基线，该框架可提高 28.57％的精度和 36.9％的 F - 度量。这种方法已被广泛应用于美国执法部门，以打击人口贩卖。

Apr, 2017

大型语言模型用于生成式信息提取：一项综述

信息提取是从自然语言文本中提取结构化知识（如实体、关系和事件）的过程。最近，生成式大型语言模型（LLMs）在文本理解和生成方面展示出了显著的能力，允许在各个领域和任务中进行概括。为了对 LLMs 在信息提取任务中的努力进行全面系统的回顾和探索，我们通过调查这个领域的最新进展来进行研究。我们首先通过以各种信息提取子任务和学习范式进行分类来呈现一个全面的概述，然后我们经验性地分析最先进的方法并发现使用 LLMs 的信息提取任务的新兴趋势。通过进行彻底审查，我们确定了一些技术见解和有希望进一步探索的研究方向，值得在未来研究中持续探索。我们在以下网址维护一个公共资源库并定期更新相关资源：https://github.com/quqxui/Awesome-LLM4IE-Papers。

Dec, 2023

通向广义的开放式信息抽取

本文介绍了一种名为 DragonIE 的 OpenIE 模型，它使用有向无环图的文本事实的极简表示来提高 Generalized OpenIE 的一般性能，并在 In-domain 和 out-of-domain 设置中表现出比以前的方法高 6.0％的 F1 分数的提升，但仍有大量改进的空间。

Nov, 2022

远程监督的词形句法模型用于关系抽取

信息抽取任务涉及将非结构化文本内容自动转换为结构化数据。本文提出了一种从文本中提取和分类无限制关系集的方法，它基于远程监督方法获取的形态 - 句法抽取模式，并创建句法和语义索引来提取和分类候选图。我们在构建在 Wikidata 和 Wikipedia 上的六个数据集上评估了我们的方法。评估结果显示，我们的方法可以实现高达 0.85 的精确度得分，但召回率和 F1 得分较低。我们的方法可以快速构建基于规则的信息抽取系统，并构建注释数据集以训练基于机器学习和深度学习的分类器。

Jan, 2024

从 LLM 中提炼元模型用于各类信息提取任务

我们提出了一个称为 MetaIE 的新框架，通过学习提取 “重要信息” 来构建一个小型元模型，使得这个元模型可以有效和高效地适应各种信息提取任务，在少样本适应设置下获得更好的性能。

Mar, 2024

InteractiveIE: 评估人工智能协作强度，提高信息提取性能

本文探讨在缺乏预定义模板情况下，如何从零或最少的监督中从文档中归纳模板，以及如何使用自动问答生成来实现这个目标，结合少量人工监督提高模型的性能。实验结果表明，这种 InteractiveIE 方法在对昂贵的生物医药和法律文件进行信息提取时能够带来良好的性能提升。

May, 2023

文档级信息提取概览

这篇综述研究对最近的文档级信息抽取文献进行了系统回顾，通过与当前最先进的算法进行彻底的错误分析，确定它们的局限性以及文档级信息抽取任务的剩余挑战，包括标签误差、实体关联解析和缺乏推理，严重影响文档级信息抽取的性能。本综述的目标是为 NLP 研究人员提供更多见解，帮助进一步提高文档级信息抽取的性能。

Sep, 2023