同义词边缘化的生物医学实体表示
本研究提出了一种新的同义词泛化(SynGen)框架,使用基于跨度的预测识别输入文本中包含的生物医学概念。 通过引入同义词距离正则化器和噪声扰动正则化器,该框架能够降低同义词泛化误差。本研究在多个基准测试中广泛评估了我们的方法,结果表明,SynGen 表现出比以前的基于字典的模型更优异的性能。
May, 2023
本文系统地分析了生物识别模型的三种识别能力:记忆,同义词泛化和概念泛化,并发现现有模型在识别同义词和新的生物概念方面存在局限性,这表明他们的泛化能力被高估了。作者调查了模型的失败案例,并确定了识别未见过的生物词汇的几个困难。最后,作者采用基于统计的去偏置方法作为简单的补救方法,显示出对未见过的提及的泛化改进。希望本文的分析和发现能够促进对 NER 模型泛化能力的进一步研究。
Jan, 2021
本文提出了一种新的方法来解决生物医学实体链接的问题,利用基于知识库的预训练和微调,以及多种类似词的构建方式来进行模型训练,这种方法在多项实验中都取得了最优结果。
Apr, 2022
通过学习实体的同义词对,我们提出了一种用于临床文本标准化的方法,通过关联多个术语,从而显著减少训练数据和资源消耗,并引入了基于上下文和无上下文重排序技术进行实体消岐。在最大的 UMLS 标注数据集 Medmentions 上,我们的方法表现与现有的零样本和远程监督实体链接技术相当,在没有基于领域的训练的情况下。最后,我们证明了单纯的检索性能可能不足以作为评估指标,并引入了一种基于文章的定量和定性分析,揭示了实体链接方法的进一步洞察。
May, 2024
本研究提出了一种轻量级神经方法,利用对齐层和注意力机制来捕捉提到与实体的不同名称变化,以解决生物医学概念链接中同一实体具有各种名称变体的挑战,并且在标准评估基准上证明该模型表现竞争力。
Dec, 2020
提出了一种深度学习方法用于实体规范化,通过将其视为一种成对学习来排名问题,并利用最佳匹配信息检索算法和双向编码器表示从编码器 (BERT) 重新对候选列表进行排名,消除了特征工程和规则创建的需求,在物种规范化方面超过了现有方法。
Oct, 2023
本研究中,我们提出了一种实体归一化架构,通过微调预训练的 BERT/BioBERT/ClinicalBERT 模型,并使用三种不同类型的数据集进行了广泛的实验,评估了预训练模型用于生物医学实体归一化的有效性。我们的实验结果表明,最佳微调模型始终优于以前的方法,并提高了生物医学实体规范化的最新水平,精确度提高了高达 1.17%。
Aug, 2019
本文提出了一个多任务学习框架,可以用于对生物医学命名实体进行识别并提高性能。该模型在 15 个基准生物医学命名实体识别数据集上的实验表明,它比现有的命名实体识别系统和基线序列标注模型都要好,此外,性能提升大部分来源于在不同的标注数据之间共享生物医学实体相关的字符和单词级别的信息。
Jan, 2018
提出 KeBioLM 这一生物医学语言 pretrained language model,该模型明确利用了来自 UMLS UMLS knowledge bases 知识库的知识,取得了名词实体识别和关系提取的不错效果。
Apr, 2021