Apr, 2022

用于提取化学物质、疾病和基因之间生物医学关系的远程监督语料库

TL;DR介绍了 ChemDisGene,这是一个用于训练和评估多类别多标签生物医学关系抽取模型的新数据集,包含 80k 生物医学研究摘要的标注有化合物、疾病和基因提及的部分,其中某些部分被人工专家标注有这些实体之间的 18 种生物医学关系。同时,针对训练集,使用 CTD 数据库进行远程标注,准确率达到约 78%。与类似的现有数据集相比,我们的数据集规模更大、更干净,并包括将提及链接到其实体的注释。还提供了三个基线深度学习网络关系抽取模型在我们的新数据集上进行训练和评估。