EnzChemRED，一个丰富的酶化学关系提取数据集

Apr, 2024

EnzChemRED，一个丰富的酶化学关系提取数据集

EnzChemRED, a rich enzyme chemistry relation extraction dataset

Po-Ting Lai, Elisabeth Coudert, Lucila Aimo, Kristian Axelsen, Lionel Breuza...

TL;DR通过 EnzChemRED 数据集，利用大型语言模型等自然语言处理方法可以显著提高识别文本中的蛋白质和化学品提及以及提取它们参与的化学转化的能力，该数据集位于 PubMed 摘要中，旨在支持酶的修饰。

Abstract

Expert curation is essential to capture knowledge of enzyme functions from the scientific literature in FAIR open knowledgebases but cannot keep pace with the rate of new discoveries and new publications. In this work we present enzchemred, for Enzyme Chemistry →

enzchemred enzyme curation natural language processing named entity recognition relation extraction

发现论文，激发创造

BioRED：一份丰富的生物医学关系提取数据集

本文提出了一个多实体类型和多关系对的文献级生物医学关系抽取数据集 BioRED，包括新发现和先前已知的信息，旨在评估现有状态下的自动化算法，为更准确、高效和稳健的生物医学关系系统的开发奠定基础。

Apr, 2022

DocRED：大规模文档级关系抽取数据集

本文介绍 DocRED 数据集，该数据集为文档级别中关系抽取 (Relation Extraction) 提供了一个新的方法，并提供了大规模的远程监督数据，以满足超级 / 弱监督训练需求。同时我们实验了目前最先进的方法，结果表明文档级别中关系抽取仍需要进一步的研究。

Jun, 2019

HistRED：历史文档级关系抽取数据集

研究通过 HistRED 数据集中的 Hanja 和韩国文本，提出了一种双语关系抽取模型，证明多语言背景可以补充关系抽取预测。

Jul, 2023

集成 SVM、CNN 和 RNN 模型的化学蛋白质关系提取

本研究采用机器学习方法，结合支持向量机、卷积神经网络和递归神经网络的集成系统，自动检测 PubMed 摘要中的化学品 - 蛋白质关系，获得了高精度和高召回率表现，证明机器学习方法对于自动提取生物医学文献中的关系具有较高的有效性。

Feb, 2018

FinRED：金融领域关系抽取数据集

本文提出了一个新的金融实体关系抽取数据集 FinRED，并在此数据集上对各种最先进的关系抽取模型进行试验，结果显示当前的模型在金融领域的性能较差，需要更好的模型。

Jun, 2023

化学蛋白相互作用提取的端到端模型：更好的标记和基于跨度的流水线策略

本研究通过使用基于跨度的管道方法，在 ChemProt 数据集上获得了新的最先进的 E2ERE（端到端关系提取）性能，结果比先前的最佳结果提高了 $> 4％$，结果表明简单的细粒度标记化方案有助于跨度方法在 E2ERE 中表现优异，特别是对于处理复杂命名实体。

Apr, 2023

WebRED: 基于 Web 的关系抽取的有效预训练和微调

本文介绍了 WebRED (Web Relation Extraction Dataset)，这是一个由人类标注的数据集，用于从万维网上的各种文本中提取关系，并利用～200M 的预训练数据和微调技术在此任务上取得更好的表现。作者提供了该数据集的基线，并阐述了人工注释在改善从网络文本中提取关系的性能方面的重要性。

Feb, 2021

EntRED: 基于少量快捷方式进行关系抽取的基准测试

本研究发现，在现有的关系抽取标准基准数据集中，数据集中的实体注释存在大量错误的情况，实体命名多样性较低，并且易于从实体名字的快捷方式到基本事实关系。为此，我们提出了一个新的具有挑战性的关系抽取数据集 EntRED，提高了实体多样性，并通过引入基于因果推理（CI）的端到端实体替换管道 ERIC。我们将 ERIC 应用于 TACRED 以生成 EntRED。实验表明，即使针对强关系模型，其性能在 EntRED 上也会显着下降，该模型仅仅记忆实体名字的模式而不是从文本上下文推理。

May, 2023

BioREx：利用异构数据集提高生物医学关系抽取的准确性

本论文提出了一种数据丰富的方法，将多个医学相关的 Relation Extraction 数据集组合成一个大型数据集，并使用 BioREx 实现了关系提取任务，结果表明，BioREx 在各种关系任务中的表现都优于当前最好的执行方法。

Jun, 2023

ReactIE：利用弱监督增强化学反应提取

本篇研究文章提出了一种名为 ReactIE 的方法，通过弱监督预训练的方式，结合来自文本中的频繁模式和专利记录中的数据，以识别化学反应的特定特征。实验证明，ReactIE 优于所有现有的基准模型。

Jul, 2023