文档级信息抽取自动错误分析
这篇综述研究对最近的文档级信息抽取文献进行了系统回顾,通过与当前最先进的算法进行彻底的错误分析,确定它们的局限性以及文档级信息抽取任务的剩余挑战,包括标签误差、实体关联解析和缺乏推理,严重影响文档级信息抽取的性能。本综述的目标是为 NLP 研究人员提供更多见解,帮助进一步提高文档级信息抽取的性能。
Sep, 2023
本文针对信息提取系统在不同任务之间交互存在困难的问题,提出了一种易于模仿人类学习过程的三阶段联合学习框架,该框架可以使模型更好地学习不同任务之间的知识和提高其泛化能力, 在四项 IE 任务上进行的广泛实验表明了本框架的有效性。
May, 2023
本文讨论信息抽取系统区分事件过程中存在的问题,进一步探讨事件模板填充在该问题中的适用性,通过反思评估度量,数据集质量以及模型学习能力等方面,提出了解决措施。
Dec, 2022
本文提出了一种基于生成式框架的文档级实体提取方法,该方法能够高效地捕获跨多实体的相关信息,使用了一种名为 TopK Copy 的交叉注意力引导复制机制,实验结果表明此方法达到了科技论文数据集上的新的最优结果。
Sep, 2021
信息抽取任务涉及将非结构化文本内容自动转换为结构化数据。本文提出了一种从文本中提取和分类无限制关系集的方法,它基于远程监督方法获取的形态 - 句法抽取模式,并创建句法和语义索引来提取和分类候选图。我们在构建在 Wikidata 和 Wikipedia 上的六个数据集上评估了我们的方法。评估结果显示,我们的方法可以实现高达 0.85 的精确度得分,但召回率和 F1 得分较低。我们的方法可以快速构建基于规则的信息抽取系统,并构建注释数据集以训练基于机器学习和深度学习的分类器。
Jan, 2024
本文提出了一种基于端到端文档分类和关键信息提取的表格自动处理方法,其中采用了文本和布局编码技术,利用余弦相似度度量来对视觉上相似的文档进行分类,进而使用混合整数规划来提取文档中的关键信息,实验表明本方法对于文档预处理等优化技术具有重要作用,并取得了令人满意的实验效果。
Jun, 2023
本文探讨在缺乏预定义模板情况下,如何从零或最少的监督中从文档中归纳模板,以及如何使用自动问答生成来实现这个目标,结合少量人工监督提高模型的性能。实验结果表明,这种 InteractiveIE 方法在对昂贵的生物医药和法律文件进行信息提取时能够带来良好的性能提升。
May, 2023
该研究介绍了一种用于法律文件信息抽取的端到端系统,实验结果表明,该系统可以在少于 50 个训练样本的情况下比基于规则的基线方法得到更好的结果,并且使用 200 个样本可以得到更高的得分,并且使用这个系统从醉酒驾驶和欺诈两个案例类别的 3.5 万个案例中抽取出的结构化信息真实反映了韩国法律系统的宏观特征。
Nov, 2022
本文提出了通过将文档信息抽取 (IE) 作为序列生成任务的方式,将现有的基于流水线的 IE 系统转变为端到端系统的尝试,着重解决了大规模实际部署所涉及的实际挑战,并证明了单个端到端 IE 系统仍然能够实现竞争性能。
Apr, 2021
本文提出了一种文档级神经事件关系抽取模型,将其作为一种条件生成的过程,并使用事件模板。此外,作者构建了一个新的包含完整事件和共指注释的文档级事件抽取数据集 WikiEvents。研究结果表明,该模型在事件论证抽取方面取得了较好的性能,并展示了零样本事件提取框架的可移植性。
Apr, 2021