SciREX: 用于文档级信息抽取的挑战数据集

ACLMay, 2020

SciREX: 用于文档级信息抽取的挑战数据集

SciREX: A Challenge Dataset for Document-Level Information Extraction

Sarthak Jain, Madeleine van Zuylen, Hannaneh Hajishirzi, Iz Beltagy

TL;DR本文介绍 SciREX，它是一个涵盖多个 IE 任务的文档级 IE 数据集，包括通过科学文章识别突出实体和文档级的 $n$ 元关系识别。我们开发了一个神经模型作为一个强有力的基线，扩展了先前的 IE 模型到文档级 IE。分析模型性能显示，人类表现和当前基线之间存在显著差距，邀请社区使用我们的数据集作为发展文档级 IE 模型的挑战。

Abstract

Extracting information from full documents is an important problem in many domains, but most previous work focus on identifying relationships within a sentence or a paragraph. It is challenging to create a large-scale information extraction (IE) dataset at the →

information extraction document level dataset neural model ie tasks

发现论文，激发创造

解锁科学：跨模态科学信息提取的新型数据集和基准

从科学论文中提取关键信息有助于研究人员提高工作效率并加快科学进展的速度。在过去几年里，科学信息提取（SciIE）的研究见证了数个新系统和基准的发布。然而，现有以论文为中心的数据集主要只关注论文的特定部分（例如摘要），且为单模态（即只有文本或表格），这是因为处理复杂性和高昂的注释费用所导致。此外，核心信息可能存在于文本或表格中，或者跨越二者。为弥补这一数据可用性的差距并实现跨模态信息提取，同时减轻标注成本，我们提出了一个半监督的流程，用于迭代地对文本中的实体、以及表格中的实体和关系进行注释。基于此流程，我们为科学界提供了一些新资源，包括一个高质量的基准、一个大型语料库和一个半监督的注释流程。我们进一步报告了最先进的信息提取模型在提出的基准数据集上的性能作为一个基准。最后，我们探索了像 ChatGPT 这样的大型语言模型在当前任务中的潜在能力。我们的新数据集、结果和分析验证了半监督流程的有效性和效率，同时我们也讨论了其剩余的局限性。

Nov, 2023

REXEL：面向文档级关系抽取和实体链接的端到端模型

REXEL 是一种高效准确的模型，可以在单个前向传递中执行提及检测、实体类型识别、实体消歧、共指消解和文档级关系分类等多个任务，将事实完全链接到参考知识图谱，具有速度和准确性的组合使得 REXEL 成为一种准确且具有成本效益的用于在 Web 规模上提取结构化信息的系统。

Apr, 2024

深度学习应用于学术信息提取的经验教训：有效的方法、问题以及未来方向

本论文介绍了一种自动的全文学术实体提取器 EneRex，用于从学术研究文章中提取技术细节，如数据集使用、任务目标、方法，并演示了如何从大规模数据集中提取关键见解和趋势，最终优于现有的模型，为未来的研究提供了讨论方向和指引。

Jul, 2022

面向科学知识图谱构建的实体、关系和共指的多任务识别

本研究提出了一个多任务学习框架 SciIE 来识别、分类科学文章中的实体、关系和共指链接，并使用跨句子的共指链接来减少任务之间的级联错误。在科学信息提取方面，多任务模型效果优于以往模型，同时支持构建科学知识图谱分析科学文献。

Aug, 2018

DocRED：大规模文档级关系抽取数据集

本文介绍 DocRED 数据集，该数据集为文档级别中关系抽取 (Relation Extraction) 提供了一个新的方法，并提供了大规模的远程监督数据，以满足超级 / 弱监督训练需求。同时我们实验了目前最先进的方法，结果表明文档级别中关系抽取仍需要进一步的研究。

Jun, 2019

文档级关系抽取综述（2016-2022）

本文提供了对最近在文档级关系提取领域的发展的全面概述，并强调了它与句子级关系提取的不同应用。

Sep, 2023

远程监督的词形句法模型用于关系抽取

信息抽取任务涉及将非结构化文本内容自动转换为结构化数据。本文提出了一种从文本中提取和分类无限制关系集的方法，它基于远程监督方法获取的形态 - 句法抽取模式，并创建句法和语义索引来提取和分类候选图。我们在构建在 Wikidata 和 Wikipedia 上的六个数据集上评估了我们的方法。评估结果显示，我们的方法可以实现高达 0.85 的精确度得分，但召回率和 F1 得分较低。我们的方法可以快速构建基于规则的信息抽取系统，并构建注释数据集以训练基于机器学习和深度学习的分类器。

Jan, 2024

BioREx：利用异构数据集提高生物医学关系抽取的准确性

本论文提出了一种数据丰富的方法，将多个医学相关的 Relation Extraction 数据集组合成一个大型数据集，并使用 BioREx 实现了关系提取任务，结果表明，BioREx 在各种关系任务中的表现都优于当前最好的执行方法。

Jun, 2023

利用引文图谱进行科学信息提取

本文研究了如何利用引文图来提高科学信息提取的准确性，证明结合引文图与文本提取任务能提升科学信息提取的水平。

Jun, 2021

文档级信息提取概览

这篇综述研究对最近的文档级信息抽取文献进行了系统回顾，通过与当前最先进的算法进行彻底的错误分析，确定它们的局限性以及文档级信息抽取任务的剩余挑战，包括标签误差、实体关联解析和缺乏推理，严重影响文档级信息抽取的性能。本综述的目标是为 NLP 研究人员提供更多见解，帮助进一步提高文档级信息抽取的性能。

Sep, 2023