Aug, 2023

BELB:一个生物医学实体链接基准

TL;DR生物医学实体链接(BEL)是将实体提及与知识库进行关联的任务,在生命科学文献的信息提取流程中起着重要作用。我们回顾了该领域的最新研究,并发现由于该任务在生物医学文本挖掘的现有基准中缺失,不同研究采用不同的实验设置,使得基于已发表数据的比较存在问题。此外,神经系统主要在与广泛覆盖的知识库 UMLS 相关的实例上进行测试,使得它们在与更专业的知识库,如基因或变体,相关的性能研究不足。因此,我们开发了一种名为 BELB 的生物医学实体链接基准,以统一的格式提供对与 7 个知识库链接的 11 个语料库的访问,并涵盖了基因、疾病、化学物质、物种、细胞系和变体等六种实体类型。BELB 大大减少了在多个语料库上测试 BEL 系统的预处理开销,为可重复实验提供了一个标准化的测试基准。利用 BELB,我们对六个基于规则的实体特定系统和三个利用预训练语言模型的最新神经方法进行了广泛评估。我们的结果显示出了复杂的情况,表明神经方法在不同实体类型上表现不一致,突出了进一步研究面向实体无关模型的需求。