从大规模多模态医学数据中学习的临床概念嵌入
文中提出了使用专家领域知识来构建单词嵌入向量的方法,在临床自然语言处理中获得了可观的效果。通过将单词的 “上下文” 概念推广为包括任意特征,我们展示了使用这种方法产生的单词向量在与临床专家的相关性方面普遍优于其纯文本的对应方法。
Dec, 2017
本研究提出了一种概念感知的无监督用户嵌入方法,结合来自 MIMIC-III 和 Diabetes 两个临床语料库的文本文档和医学概念,用于疾病诊断和病人特征研究等领域,实验证明该方法的性能明显优于现有的无监督方法。
Mar, 2022
本研究提出一个基于领域特定词汇上下文嵌入的临床问题、治疗和测试自动标注临床笔记的模型,使用上下文嵌入模型训练一个双向 LSTM-CRF 模型用于临床概念提取,并在 I2B2 2010 挑战数据集上进行了测试,最终性能优于现有模型 3.4%。
Oct, 2018
通过自动创建的大规模医学术语相似性数据集,我们证实了当代嵌入向量对于医疗术语的语义相似性表达受到限制,并提出了具有挑战性的新的基准数据集,以便开发能够准确表示整个医学术语的医学嵌入向量。
Mar, 2020
本研究旨在研究新的语言表示方法(如 ELMo,BERT)在医疗概念提取方面的应用,比较这些方法与传统词嵌入方法(word2vec,GloVe,fastText)的性能表现,并探讨将这些表示方法应用于医疗任务的可能性。研究结果表明,基于大型医学语料库的上下文嵌入方法表现出色,优于现有所有方法。此外,与传统词表示相比,上下文嵌入方法还包含有价值的语义信息。
Feb, 2019
本文探讨了使用不同的资源如临床笔记、生物医学出版物、维基百科和新闻训练的词嵌入,经过定性和定量评估后发现,基于临床笔记和生物医学出版物训练的词嵌入能更好地捕捉医学术语的语义,更接近于专家的判断,但是,无法为所有下游生物医学 NLP 任务提供一致的全局排名,只能将它们作为额外特征来提高大多数下游任务的结果。
Feb, 2018
本篇研究提出了 BioConceptVec,通过利用最先进的文本挖掘工具和机器学习模型学习 PubMed 摘要中介绍的超过 400,000 个生物概念的向量表示(即嵌入),来捕捉相关概念的语义。BioConceptVec 已经在包括 9 个不同生物数据集的 2500 万实例的多个生物信息学任务中得到了全面评估,在所有任务中其性能均优于现有方法。最后,BioConceptVec 通过网站免费向研究社区和公众提供。
Dec, 2019
本研究基于 Transformers 预训练的语言表示学习方法,将特定医学记录中的信息提取,映射到标准词汇中,并在医院死亡预测任务中测试不同输入格式的性能,结果表明使用提取的唯一概念和标准名称作为输入可以获得更好的性能。
Jul, 2022