使用三元组网络进行医疗实体链接
通过学习实体的同义词对,我们提出了一种用于临床文本标准化的方法,通过关联多个术语,从而显著减少训练数据和资源消耗,并引入了基于上下文和无上下文重排序技术进行实体消岐。在最大的 UMLS 标注数据集 Medmentions 上,我们的方法表现与现有的零样本和远程监督实体链接技术相当,在没有基于领域的训练的情况下。最后,我们证明了单纯的检索性能可能不足以作为评估指标,并引入了一种基于文章的定量和定性分析,揭示了实体链接方法的进一步洞察。
May, 2024
本研究提出了一种轻量级神经方法,利用对齐层和注意力机制来捕捉提到与实体的不同名称变化,以解决生物医学概念链接中同一实体具有各种名称变体的挑战,并且在标准评估基准上证明该模型表现竞争力。
Dec, 2020
提出一种无需实体级别监督的实体链接和关系抽取模型,避免了流水线方法中产生的级联错误,并在两个生物医学数据集上优于最先进的实体链接和关系抽取流水线,极大地提高了系统的总体召回率。
Dec, 2019
通过引入新的 $k$NN-BioEL 方案,以及使用动态难负采样 (DHNS) 进行对比学习,本研究提出了一种改进型的生物医学实体链接模型,可以提高模型对稀有和困难实体的处理能力,并在多个数据集上优于现有方法。
Dec, 2023
这项研究通过使用一种新颖的双阶段流程来实现医学实体链接,该流程利用领域内适应的语言模型进行生物医学文本挖掘,从而显著提升了临床文本分析的性能。该方法在西班牙语内容的初期侧重下,在涉及异构医学术语并在原始数据子集上进行训练的复杂场景中,显著优于为同一目的设计的多语言语言模型。通过在两个不同的临床实体链接 Gold Standard 语料库(DisTEMIST(疾病)和 MedProcNER(临床程序))上进行评估,我们的结果表明,该方法在 25 个 Top-k 准确度和其他 Top-k 指标上的性能优于前期基准,DisTEMIST 上提高了 40 个点,MedProcNER 上提高了 43 个点,两者均归一化到 SNOMED-CT 代码。这些发现突显了我们的方法在处理语言特定细微差别方面的能力,并树立了一个新的实体链接基准,为提高数字医疗记录的实用性提供了一种强大工具。该系统的结果具有实际价值,既可以用于从临床记录中自动产生大规模结构化数据,也可用于全面提取和协调预定义的临床变量。
Apr, 2024
本研究提出了一种基于 BERT 的双编码器模型,可一次处理文档中的多个关键词,解决了现有模型效率低的问题,在生物医学实体链接领域取得了与现有模型相当的准确性,并对其进行了改进,实现了端到端生物医学实体链接,表现出更好的性能.
Mar, 2021
提出了一种基于最近邻法的实体链接方法,该方法通过建立一个上下文相关的提及编码器,学习将相似的提及放置在比不同实体的提及更接近的向量空间中,从而利用所有实体的提及作为 “类原型”,通过对训练集中标记的实体的提及集合进行检索,并应用最近的提及邻居实体标签进行推理。通过对维基百科超链接的提及对的大型多语言语料库进行训练,该模型在一个包含 7 亿个提及的索引上进行最近邻推理。该方法训练简单,预测可解释性更强,并在两个多语言实体链接基准测试中优于所有其他现有方法。
Jun, 2021