用于临床概念提取的双向 LSTM-CRF 模型
本研究提出一个基于领域特定词汇上下文嵌入的临床问题、治疗和测试自动标注临床笔记的模型,使用上下文嵌入模型训练一个双向 LSTM-CRF 模型用于临床概念提取,并在 I2B2 2010 挑战数据集上进行了测试,最终性能优于现有模型 3.4%。
Oct, 2018
本文研究了基于 LSTM 模型的序列标注技术,通过引入双向 LSTM 和条件随机场 (CRF) 层提高了模型的准确性和鲁棒性,实现了对 POS、chunking 和 NER 等序列标注数据集的最先进性能。
Aug, 2015
本文研究了使用循环神经网络框架在电子病历中提取医疗事件和属性的序列标注任务,实验结果表明其优于传统的有监督机器学习模型,可应用于药物监管等医疗信息学领域。
Jun, 2016
本研究旨在研究新的语言表示方法(如 ELMo,BERT)在医疗概念提取方面的应用,比较这些方法与传统词嵌入方法(word2vec,GloVe,fastText)的性能表现,并探讨将这些表示方法应用于医疗任务的可能性。研究结果表明,基于大型医学语料库的上下文嵌入方法表现出色,优于现有所有方法。此外,与传统词表示相比,上下文嵌入方法还包含有价值的语义信息。
Feb, 2019
本文提出了一种新颖的神经网络体系结构,该体系结构利用了双向 LSTM,CNN 和 CRF 的组合,自动地从单词和字符级别表示中受益。我们的系统是真正的端到端的,不需要特征工程或数据预处理,因此适用于广泛的序列标注任务。我们在两个数据集上对我们的系统进行了评估,即 Penn Treebank WSJ 语料库用于词性标注和 CoNLL 2003 语料库用于命名实体识别。我们在这两个数据集上获得了最先进的性能 - 词性标注的准确率为 97.55%,命名实体识别的 F1 值为 91.21%。
Mar, 2016
本文提出了两种模型,分别是 LSTM-CRF 和 BERT-LSTM-CRF,用于语义标记通用语义标记数据集。实验结果表明,第一个模型更易于收敛,而利用 BERT 嵌入的第二个模型需要长时间才能收敛,并需要大型数据集才能有效地进行语义标记。
Jan, 2023
在临床领域中,序列标注是一种广泛使用的方法,其主要应用是从非结构化的自然语言数据中提取药物、指示和副作用等医学实体。本文通过使用具有循环神经网络的多种基于 CRF 的结构化学习模型,扩展了先前研究的 LSTM-CRF 模型,并提出了一种具有 RNN 位势的跳链 CRF 推理的近似版本,以实现各种医学实体的精确短语检测。
Aug, 2016
在这项研究中,使用临床自然语言处理技术解决了识别和映射标准术语的问题。提出了一种用于提取临床文本中关键概念的 TF-IDF 快捷方法,并使用基于 transformer 的模型设计了两种下游任务,结果表明 SciBERT 模型在结合提出的方法时具有优越性,并为临床笔记的关键短语提取提供了洞察。
Mar, 2023
本文提出了一种新颖的神经网络模型,利用混合双向 LSTM 和 CNN 架构自动检测单词和字符级特征,并提出了一种将部分词典匹配编码到神经网络中的方法。经过广泛评估,使用两个来自公开资源的词典,该系统在 CoNLL-2003 数据集上达到 91.62 的 F1 分数,在 OntoNotes 上达到 86.28 的 F1 分数,超过了其他采用重度特征工程、专有词典和丰富的实体链接信息的系统。
Nov, 2015