EnzChemRED,一个丰富的酶化学关系提取数据集
本文提出了一个多实体类型和多关系对的文献级生物医学关系抽取数据集 BioRED,包括新发现和先前已知的信息,旨在评估现有状态下的自动化算法,为更准确、高效和稳健的生物医学关系系统的开发奠定基础。
Apr, 2022
本文介绍 DocRED 数据集,该数据集为文档级别中关系抽取 (Relation Extraction) 提供了一个新的方法,并提供了大规模的远程监督数据,以满足超级 / 弱监督训练需求。同时我们实验了目前最先进的方法,结果表明文档级别中关系抽取仍需要进一步的研究。
Jun, 2019
本研究采用机器学习方法,结合支持向量机、卷积神经网络和递归神经网络的集成系统,自动检测 PubMed 摘要中的化学品 - 蛋白质关系,获得了高精度和高召回率表现,证明机器学习方法对于自动提取生物医学文献中的关系具有较高的有效性。
Feb, 2018
本文提出了一个新的金融实体关系抽取数据集 FinRED,并在此数据集上对各种最先进的关系抽取模型进行试验,结果显示当前的模型在金融领域的性能较差,需要更好的模型。
Jun, 2023
本研究通过使用基于跨度的管道方法,在 ChemProt 数据集上获得了新的最先进的 E2ERE(端到端关系提取)性能,结果比先前的最佳结果提高了 $> 4%$,结果表明简单的细粒度标记化方案有助于跨度方法在 E2ERE 中表现优异,特别是对于处理复杂命名实体。
Apr, 2023
本文介绍了 WebRED (Web Relation Extraction Dataset),这是一个由人类标注的数据集,用于从万维网上的各种文本中提取关系,并利用~200M 的预训练数据和微调技术在此任务上取得更好的表现。作者提供了该数据集的基线,并阐述了人工注释在改善从网络文本中提取关系的性能方面的重要性。
Feb, 2021
本研究发现,在现有的关系抽取标准基准数据集中,数据集中的实体注释存在大量错误的情况,实体命名多样性较低,并且易于从实体名字的快捷方式到基本事实关系。为此,我们提出了一个新的具有挑战性的关系抽取数据集 EntRED,提高了实体多样性,并通过引入基于因果推理(CI)的端到端实体替换管道 ERIC。我们将 ERIC 应用于 TACRED 以生成 EntRED。实验表明,即使针对强关系模型,其性能在 EntRED 上也会显着下降,该模型仅仅记忆实体名字的模式而不是从文本上下文推理。
May, 2023
本论文提出了一种数据丰富的方法,将多个医学相关的 Relation Extraction 数据集组合成一个大型数据集,并使用 BioREx 实现了关系提取任务,结果表明,BioREx 在各种关系任务中的表现都优于当前最好的执行方法。
Jun, 2023
本篇研究文章提出了一种名为 ReactIE 的方法,通过弱监督预训练的方式,结合来自文本中的频繁模式和专利记录中的数据,以识别化学反应的特定特征。实验证明,ReactIE 优于所有现有的基准模型。
Jul, 2023