领域和通用文件中的信息提取：启发式和数据驱动方法的研究结果

Jun, 2023

领域和通用文件中的信息提取：启发式和数据驱动方法的研究结果

Information Extraction in Domain and Generic Documents: Findings from Heuristic-based and Data-driven Approaches

Shiyu Yuan, Carlo Lipizzi

TL;DR本项研究探讨了信息抽取中文档体类别和长度对常用方法的影响，特别是对具有文本挖掘任务价值的命名实体识别和语义角色标注有着重要的启示。

Abstract

information extraction (IE) plays very important role in natural language processing (NLP) and is fundamental to many NLP applications that used to extract structured information from unstructured text data. Heuristic-based searching and →

information extraction named entity recognition semantic role labeling data-driven learning document genre

发现论文，激发创造

文档级信息提取概览

这篇综述研究对最近的文档级信息抽取文献进行了系统回顾，通过与当前最先进的算法进行彻底的错误分析，确定它们的局限性以及文档级信息抽取任务的剩余挑战，包括标签误差、实体关联解析和缺乏推理，严重影响文档级信息抽取的性能。本综述的目标是为 NLP 研究人员提供更多见解，帮助进一步提高文档级信息抽取的性能。

Sep, 2023

非法领域中的信息提取

本论文提出了一种轻量级的特征无关的信息提取（IE）范例，可以处理语言模式不规范、长尾概念漂移等问题，特别适用于人口贩卖等非法领域；经验证明，在低监督和高监督设置下，该范例可以比传统的基于特征的条件随机场提升 18％以上的 F - 度量，并且能够漂移概念稳定性高。

Mar, 2017

信息提取的易到难学习

本文针对信息提取系统在不同任务之间交互存在困难的问题，提出了一种易于模仿人类学习过程的三阶段联合学习框架，该框架可以使模型更好地学习不同任务之间的知识和提高其泛化能力，在四项 IE 任务上进行的广泛实验表明了本框架的有效性。

May, 2023

基于数据效率的形式文档信息提取

本文介绍了如何使用少量标记数据和被标记语料库进行转移学习，以实现在规模上自动从表单状文件提取信息。

Jan, 2022

信息提取：在发展中国家超本地金融数据领域的应用

本研究使用自然语言处理技术，旨在解决获取发展中国家公司财务数据的问题。通过构建专门针对发展中国家金融文本数据的数据集，我们采用基于 Transformer 的 T5 模型进行文本到文本的处理，同时进行命名实体识别和关系提取，达到 92.44% 的准确率、68.25% 的精确度和 54.20% 的召回率。同时，我们还使用 SpaCy 进行序列处理，包括预训练和微调模型的命名实体识别以及使用 SpaCy 的依赖解析器输出和一些启发式方法来确定实体关系，最终实现了 84.72% 的准确率、6.06% 的精确度和 5.57% 的召回率。

Mar, 2024

大型语言模型用于生成式信息提取：一项综述

信息提取是从自然语言文本中提取结构化知识（如实体、关系和事件）的过程。最近，生成式大型语言模型（LLMs）在文本理解和生成方面展示出了显著的能力，允许在各个领域和任务中进行概括。为了对 LLMs 在信息提取任务中的努力进行全面系统的回顾和探索，我们通过调查这个领域的最新进展来进行研究。我们首先通过以各种信息提取子任务和学习范式进行分类来呈现一个全面的概述，然后我们经验性地分析最先进的方法并发现使用 LLMs 的信息提取任务的新兴趋势。通过进行彻底审查，我们确定了一些技术见解和有希望进一步探索的研究方向，值得在未来研究中持续探索。我们在以下网址维护一个公共资源库并定期更新相关资源：https://github.com/quqxui/Awesome-LLM4IE-Papers。

Dec, 2023

文档级信息抽取自动错误分析

本研究提出通过基于转换的框架实现文档级事件和关系提取自动化错误分析，进而比较两种最先进的模板填充方法在三个领域的数据集上的表现，并对信息提取领域自其 30 年前创始以来的发展进行了评估。

Sep, 2022

InteractiveIE: 评估人工智能协作强度，提高信息提取性能

本文探讨在缺乏预定义模板情况下，如何从零或最少的监督中从文档中归纳模板，以及如何使用自动问答生成来实现这个目标，结合少量人工监督提高模型的性能。实验结果表明，这种 InteractiveIE 方法在对昂贵的生物医药和法律文件进行信息提取时能够带来良好的性能提升。

May, 2023

神经抽取式搜索

我们提出了一种名为‘抽取式搜索’的搜索范式，其使用捕捉插槽等方法实现从大语料库中快速提取结构化信息，并通过神经检索和对齐提高召回率以改进结果。本文旨在简要介绍抽取式搜索并展示原型系统的潜力和好处。

Jun, 2021

远程监督的词形句法模型用于关系抽取

信息抽取任务涉及将非结构化文本内容自动转换为结构化数据。本文提出了一种从文本中提取和分类无限制关系集的方法，它基于远程监督方法获取的形态 - 句法抽取模式，并创建句法和语义索引来提取和分类候选图。我们在构建在 Wikidata 和 Wikipedia 上的六个数据集上评估了我们的方法。评估结果显示，我们的方法可以实现高达 0.85 的精确度得分，但召回率和 F1 得分较低。我们的方法可以快速构建基于规则的信息抽取系统，并构建注释数据集以训练基于机器学习和深度学习的分类器。

Jan, 2024