本文提出了一种新的方法来解决生物医学实体链接的问题,利用基于知识库的预训练和微调,以及多种类似词的构建方式来进行模型训练,这种方法在多项实验中都取得了最优结果。
Apr, 2022
提出 KeBioLM 这一生物医学语言 pretrained language model,该模型明确利用了来自 UMLS UMLS knowledge bases 知识库的知识,取得了名词实体识别和关系提取的不错效果。
Apr, 2021
本文研究如何提高知识图谱的完整性,通过引入 LP-BERT 模型,并结合语义匹配以及数据增强的方法,实现了知识图谱补全任务的最新成果,优于现有最佳表现。
Jan, 2022
本研究提出了一种轻量级神经方法,利用对齐层和注意力机制来捕捉提到与实体的不同名称变化,以解决生物医学概念链接中同一实体具有各种名称变体的挑战,并且在标准评估基准上证明该模型表现竞争力。
Dec, 2020
通过学习实体的同义词对,我们提出了一种用于临床文本标准化的方法,通过关联多个术语,从而显著减少训练数据和资源消耗,并引入了基于上下文和无上下文重排序技术进行实体消岐。在最大的 UMLS 标注数据集 Medmentions 上,我们的方法表现与现有的零样本和远程监督实体链接技术相当,在没有基于领域的训练的情况下。最后,我们证明了单纯的检索性能可能不足以作为评估指标,并引入了一种基于文章的定量和定性分析,揭示了实体链接方法的进一步洞察。
May, 2024
利用大型语言模型的阅读理解能力和生物医学领域知识,开发了一个高通量的生物医学关系提取系统,将关系提取任务作为一个简单的二分类问题,通过外部语料库和世界知识进行判断,并从可靠医学网站中提取多种类型的生物医学关系。
Dec, 2023
利用大型语言模型 PromptLink 实现生物医学概念链接,解决概念命名差异问题,从而在不同数据源之间进行集成分析,该方法通过两阶段提示实现链接,既充分利用了大型语言模型的先验知识,又提高了结果的可靠性。
提出一种无需实体级别监督的实体链接和关系抽取模型,避免了流水线方法中产生的级联错误,并在两个生物医学数据集上优于最先进的实体链接和关系抽取流水线,极大地提高了系统的总体召回率。
Dec, 2019
通过从 UMLS 中提取文本序列,该工作为丰富生物医学变压器编码器的语言表示做出了数据为中心的范例贡献,从而将基于图的学习目标与掩码语言预训练相结合,初步实验结果表明该框架提高了多个生物医学和临床命名实体识别任务的下游性能。
Jul, 2023
该研究提出了一种基于聚类的推理模型,可以在生物医药领域的文本中实现实体链接,将多个提及归为一组,有望提高独立预测精度。
Oct, 2020