SciREX: 用于文档级信息抽取的挑战数据集
从科学论文中提取关键信息有助于研究人员提高工作效率并加快科学进展的速度。在过去几年里,科学信息提取(SciIE)的研究见证了数个新系统和基准的发布。然而,现有以论文为中心的数据集主要只关注论文的特定部分(例如摘要),且为单模态(即只有文本或表格),这是因为处理复杂性和高昂的注释费用所导致。此外,核心信息可能存在于文本或表格中,或者跨越二者。为弥补这一数据可用性的差距并实现跨模态信息提取,同时减轻标注成本,我们提出了一个半监督的流程,用于迭代地对文本中的实体、以及表格中的实体和关系进行注释。基于此流程,我们为科学界提供了一些新资源,包括一个高质量的基准、一个大型语料库和一个半监督的注释流程。我们进一步报告了最先进的信息提取模型在提出的基准数据集上的性能作为一个基准。最后,我们探索了像 ChatGPT 这样的大型语言模型在当前任务中的潜在能力。我们的新数据集、结果和分析验证了半监督流程的有效性和效率,同时我们也讨论了其剩余的局限性。
Nov, 2023
REXEL 是一种高效准确的模型,可以在单个前向传递中执行提及检测、实体类型识别、实体消歧、共指消解和文档级关系分类等多个任务,将事实完全链接到参考知识图谱,具有速度和准确性的组合使得 REXEL 成为一种准确且具有成本效益的用于在 Web 规模上提取结构化信息的系统。
Apr, 2024
本论文介绍了一种自动的全文学术实体提取器 EneRex,用于从学术研究文章中提取技术细节,如数据集使用、任务目标、方法,并演示了如何从大规模数据集中提取关键见解和趋势,最终优于现有的模型,为未来的研究提供了讨论方向和指引。
Jul, 2022
本研究提出了一个多任务学习框架 SciIE 来识别、分类科学文章中的实体、关系和共指链接,并使用跨句子的共指链接来减少任务之间的级联错误。在科学信息提取方面,多任务模型效果优于以往模型,同时支持构建科学知识图谱分析科学文献。
Aug, 2018
本文介绍 DocRED 数据集,该数据集为文档级别中关系抽取 (Relation Extraction) 提供了一个新的方法,并提供了大规模的远程监督数据,以满足超级 / 弱监督训练需求。同时我们实验了目前最先进的方法,结果表明文档级别中关系抽取仍需要进一步的研究。
Jun, 2019
信息抽取任务涉及将非结构化文本内容自动转换为结构化数据。本文提出了一种从文本中提取和分类无限制关系集的方法,它基于远程监督方法获取的形态 - 句法抽取模式,并创建句法和语义索引来提取和分类候选图。我们在构建在 Wikidata 和 Wikipedia 上的六个数据集上评估了我们的方法。评估结果显示,我们的方法可以实现高达 0.85 的精确度得分,但召回率和 F1 得分较低。我们的方法可以快速构建基于规则的信息抽取系统,并构建注释数据集以训练基于机器学习和深度学习的分类器。
Jan, 2024
本论文提出了一种数据丰富的方法,将多个医学相关的 Relation Extraction 数据集组合成一个大型数据集,并使用 BioREx 实现了关系提取任务,结果表明,BioREx 在各种关系任务中的表现都优于当前最好的执行方法。
Jun, 2023
这篇综述研究对最近的文档级信息抽取文献进行了系统回顾,通过与当前最先进的算法进行彻底的错误分析,确定它们的局限性以及文档级信息抽取任务的剩余挑战,包括标签误差、实体关联解析和缺乏推理,严重影响文档级信息抽取的性能。本综述的目标是为 NLP 研究人员提供更多见解,帮助进一步提高文档级信息抽取的性能。
Sep, 2023