使用临床词汇表增强字向量的 AWE-CM 向量
使用大规模多模态医疗数据集,本文提出了一种新的 cui2vec 医疗概念词嵌入模型,并通过统计功率法进行了评估,结果表明该模型在大多数情况下相对于之前的方法具有最先进的性能。
Apr, 2018
通过自动创建的大规模医学术语相似性数据集,我们证实了当代嵌入向量对于医疗术语的语义相似性表达受到限制,并提出了具有挑战性的新的基准数据集,以便开发能够准确表示整个医学术语的医学嵌入向量。
Mar, 2020
本研究提出一个基于领域特定词汇上下文嵌入的临床问题、治疗和测试自动标注临床笔记的模型,使用上下文嵌入模型训练一个双向 LSTM-CRF 模型用于临床概念提取,并在 I2B2 2010 挑战数据集上进行了测试,最终性能优于现有模型 3.4%。
Oct, 2018
本研究旨在研究新的语言表示方法(如 ELMo,BERT)在医疗概念提取方面的应用,比较这些方法与传统词嵌入方法(word2vec,GloVe,fastText)的性能表现,并探讨将这些表示方法应用于医疗任务的可能性。研究结果表明,基于大型医学语料库的上下文嵌入方法表现出色,优于现有所有方法。此外,与传统词表示相比,上下文嵌入方法还包含有价值的语义信息。
Feb, 2019
本文探讨了使用不同的资源如临床笔记、生物医学出版物、维基百科和新闻训练的词嵌入,经过定性和定量评估后发现,基于临床笔记和生物医学出版物训练的词嵌入能更好地捕捉医学术语的语义,更接近于专家的判断,但是,无法为所有下游生物医学 NLP 任务提供一致的全局排名,只能将它们作为额外特征来提高大多数下游任务的结果。
Feb, 2018
UmlsBERT is a contextual embedding model for biomedical natural language processing that integrates domain knowledge during pre-training via a novel knowledge augmentation strategy, outperforming existing models on named-entity recognition and clinical natural language inference tasks.
Oct, 2020
本文是一篇关于临床自然语言处理中嵌入表示法的全面调查研究,讨论了各种医学语料库及其特征、医学编码、流行嵌入模型的概述和比较,并将临床嵌入表示划分为九类,并详细讨论每种嵌入类型,探讨临床嵌入表示法中的各种挑战及可能的解决方案和未来研究方向。
Mar, 2019
本文探讨使用无监督学习的方法,通过单词嵌入在词向量空间内学习语义相似性,以实现对文本分类任务的性能优化。研究发现,使用领域特定的词嵌入可以提高分类性能。
May, 2017