将临床知识融入语言模型的标记器
通过从 UMLS 中提取文本序列,该工作为丰富生物医学变压器编码器的语言表示做出了数据为中心的范例贡献,从而将基于图的学习目标与掩码语言预训练相结合,初步实验结果表明该框架提高了多个生物医学和临床命名实体识别任务的下游性能。
Jul, 2023
本文通过使用领域专有词汇和大规模临床训练语料库,使用双向编码器解码器(BERT)模型对医疗语言推理任务进行分析和评估,与公共基准任务上同等规模的公开可用的最佳生物医学语言模型相比,我们的模型表现相同,并且在使用 UCSF 数据的两个任务的系统内评估中优于这些模型,但需要进一步的研究来提高缩写、数字、时间和隐含因果推理的准确性。
Oct, 2022
通过知识蒸馏和不断学习等技术,本研究着眼于发展处理临床文本的高效轻量级语言模型,与生物医学文本数据训练的大型模型相比,这些模型效果相当甚至更好,并超越了任何其他训练过的小型模型在自然语言推理、关系提取、命名实体识别和序列分类等临床文本挖掘任务上的表现。
Feb, 2023
本研究提出一个基于领域特定词汇上下文嵌入的临床问题、治疗和测试自动标注临床笔记的模型,使用上下文嵌入模型训练一个双向 LSTM-CRF 模型用于临床概念提取,并在 I2B2 2010 挑战数据集上进行了测试,最终性能优于现有模型 3.4%。
Oct, 2018
UmlsBERT is a contextual embedding model for biomedical natural language processing that integrates domain knowledge during pre-training via a novel knowledge augmentation strategy, outperforming existing models on named-entity recognition and clinical natural language inference tasks.
Oct, 2020
本研究旨在研究新的语言表示方法(如 ELMo,BERT)在医疗概念提取方面的应用,比较这些方法与传统词嵌入方法(word2vec,GloVe,fastText)的性能表现,并探讨将这些表示方法应用于医疗任务的可能性。研究结果表明,基于大型医学语料库的上下文嵌入方法表现出色,优于现有所有方法。此外,与传统词表示相比,上下文嵌入方法还包含有价值的语义信息。
Feb, 2019
本文探讨了如何通过在特定领域数据上进行连续预训练,来适应领域特定需求,以提高医学自然语言处理任务的性能。实验证明,通过在临床数据或翻译文本上进行预训练已被证明是在医学领域适应性优化的可靠方法。
Apr, 2024
在这项研究中,使用临床自然语言处理技术解决了识别和映射标准术语的问题。提出了一种用于提取临床文本中关键概念的 TF-IDF 快捷方法,并使用基于 transformer 的模型设计了两种下游任务,结果表明 SciBERT 模型在结合提出的方法时具有优越性,并为临床笔记的关键短语提取提供了洞察。
Mar, 2023
这项研究通过使用一种新颖的双阶段流程来实现医学实体链接,该流程利用领域内适应的语言模型进行生物医学文本挖掘,从而显著提升了临床文本分析的性能。该方法在西班牙语内容的初期侧重下,在涉及异构医学术语并在原始数据子集上进行训练的复杂场景中,显著优于为同一目的设计的多语言语言模型。通过在两个不同的临床实体链接 Gold Standard 语料库(DisTEMIST(疾病)和 MedProcNER(临床程序))上进行评估,我们的结果表明,该方法在 25 个 Top-k 准确度和其他 Top-k 指标上的性能优于前期基准,DisTEMIST 上提高了 40 个点,MedProcNER 上提高了 43 个点,两者均归一化到 SNOMED-CT 代码。这些发现突显了我们的方法在处理语言特定细微差别方面的能力,并树立了一个新的实体链接基准,为提高数字医疗记录的实用性提供了一种强大工具。该系统的结果具有实际价值,既可以用于从临床记录中自动产生大规模结构化数据,也可用于全面提取和协调预定义的临床变量。
Apr, 2024