医学实体链接的轻量级神经模型
本研究提出了一种基于 BERT 的双编码器模型,可一次处理文档中的多个关键词,解决了现有模型效率低的问题,在生物医学实体链接领域取得了与现有模型相当的准确性,并对其进行了改进,实现了端到端生物医学实体链接,表现出更好的性能.
Mar, 2021
通过探究实体链接任务中基于 BERT 的模型的内在工作机制,我们提出了一个具有卷积神经网络和残差连接的高效模型,能够在拥有大约 60 倍更少的参数的情况下实现与现有最先进的 BERT-based 模型相当甚至更好的实体链接准确性。
Sep, 2021
通过学习实体的同义词对,我们提出了一种用于临床文本标准化的方法,通过关联多个术语,从而显著减少训练数据和资源消耗,并引入了基于上下文和无上下文重排序技术进行实体消岐。在最大的 UMLS 标注数据集 Medmentions 上,我们的方法表现与现有的零样本和远程监督实体链接技术相当,在没有基于领域的训练的情况下。最后,我们证明了单纯的检索性能可能不足以作为评估指标,并引入了一种基于文章的定量和定性分析,揭示了实体链接方法的进一步洞察。
May, 2024
用荷兰语进行评估的首个生物医学实体链接模型基于 MedRoBERTa.nl 为基础模型,通过自对齐在荷兰语生物医学本体上进行第二阶段预训练,并在维基百科中的本体链接荷兰语生物医学实体数据集上进行微调。在 Mantra GSC-corpus 的荷兰语部分上评估模型,分类准确度为 54.7%,1 - 距离准确度为 69.8%。对无标签的患者支持论坛数据进行案例研究发现,模型受到前置实体识别步骤质量的限制。对小样本进行手动评估发现,正确提取的实体中约 65% 与本体中的正确概念相关联。结果表明,与英语以外的其他语言进行生物医学实体链接仍具有挑战性,但我们的荷兰模型可用于对患者生成的文本进行高级分析。
May, 2024
提出 KeBioLM 这一生物医学语言 pretrained language model,该模型明确利用了来自 UMLS UMLS knowledge bases 知识库的知识,取得了名词实体识别和关系提取的不错效果。
Apr, 2021
本文提出了一种集成多种模型的混合方法,以解决生物医学实体识别中的局限性,并在 i2b2/2010 数据集上评估,得到了 90.11 的 F1 分数。
Dec, 2023
提出一种在大规模生物医学语料库上训练的具有生物医学上下文依赖命名实体识别能力的领域特定语言模型 —— 生物医学 ALBERT,并在 8 个不同的医学 NER 基准数据集上展现出极高的性能表现,该模型可供未来研究使用。
Sep, 2020
本研究中,我们提出了一种实体归一化架构,通过微调预训练的 BERT/BioBERT/ClinicalBERT 模型,并使用三种不同类型的数据集进行了广泛的实验,评估了预训练模型用于生物医学实体归一化的有效性。我们的实验结果表明,最佳微调模型始终优于以前的方法,并提高了生物医学实体规范化的最新水平,精确度提高了高达 1.17%。
Aug, 2019