信息提取的易到难学习
本文提出了通过将文档信息抽取 (IE) 作为序列生成任务的方式,将现有的基于流水线的 IE 系统转变为端到端系统的尝试,着重解决了大规模实际部署所涉及的实际挑战,并证明了单个端到端 IE 系统仍然能够实现竞争性能。
Apr, 2021
信息抽取(IE)旨在从非结构化或半结构化文档中导出结构化表示。本研究提出了 PyTorch-IE,一种基于深度学习的框架,旨在实现 IE 模型的快速、可重复和可重用的实现。PyTorch-IE 提供了灵活的数据模型,能够通过集成来自各种数据类型(如纯文本或半结构化文本以及图像)的相互依赖的注释层来创建复杂的数据结构。通过提供对 PyTorch-Lightning 用于训练、HuggingFace 数据集用于数据集读取和 Hydra 用于实验配置等广泛使用的库的支持,PyTorch-IE 为信息抽取领域的研究社区提供了重要的支持。
May, 2024
信息提取是从自然语言文本中提取结构化知识(如实体、关系和事件)的过程。最近,生成式大型语言模型(LLMs)在文本理解和生成方面展示出了显著的能力,允许在各个领域和任务中进行概括。为了对 LLMs 在信息提取任务中的努力进行全面系统的回顾和探索,我们通过调查这个领域的最新进展来进行研究。我们首先通过以各种信息提取子任务和学习范式进行分类来呈现一个全面的概述,然后我们经验性地分析最先进的方法并发现使用 LLMs 的信息提取任务的新兴趋势。通过进行彻底审查,我们确定了一些技术见解和有希望进一步探索的研究方向,值得在未来研究中持续探索。我们在以下网址维护一个公共资源库并定期更新相关资源:https://github.com/quqxui/Awesome-LLM4IE-Papers。
Dec, 2023
本文提出了一种基于统一语义匹配框架的信息提取方法,解决了传统方法因具体任务需定制模型且仅能适用于有见过的数据集的问题,通过对信息提取进行结构化和概念化两个基本能力的分离并引入三个统一的标记链接操作,在 4 个 IE 任务中达到了最先进的性能并表现出了强大的泛化能力。
Jan, 2023
本文提出了一种名为 UIE 的统一文本到结构生成框架,可通用地模拟不同的信息提取任务,通过基于模式的指示器机制自适应生成目标结构,并通过大规模的预训练文本到结构模型捕捉共同的信息提取能力。实验结果显示,UIE 在四个 IE 任务、13 个数据集和不同的实验条件下实现了最先进的性能,验证了其有效性、通用性和可迁移性。
Mar, 2022
我们提出了一个称为 MetaIE 的新框架,通过学习提取 “重要信息” 来构建一个小型元模型,使得这个元模型可以有效和高效地适应各种信息提取任务,在少样本适应设置下获得更好的性能。
Mar, 2024
这篇综述研究对最近的文档级信息抽取文献进行了系统回顾,通过与当前最先进的算法进行彻底的错误分析,确定它们的局限性以及文档级信息抽取任务的剩余挑战,包括标签误差、实体关联解析和缺乏推理,严重影响文档级信息抽取的性能。本综述的目标是为 NLP 研究人员提供更多见解,帮助进一步提高文档级信息抽取的性能。
Sep, 2023
本文探讨在缺乏预定义模板情况下,如何从零或最少的监督中从文档中归纳模板,以及如何使用自动问答生成来实现这个目标,结合少量人工监督提高模型的性能。实验结果表明,这种 InteractiveIE 方法在对昂贵的生物医药和法律文件进行信息提取时能够带来良好的性能提升。
May, 2023
本论文提出了一种轻量级的特征无关的信息提取 (IE)范例,可以处理语言模式不规范、长尾概念漂移等问题,特别适用于人口贩卖等非法领域;经验证明,在低监督和高监督设置下,该范例可以比传统的基于特征的条件随机场提升 18%以上的 F - 度量,并且能够漂移概念稳定性高。
Mar, 2017