利用词嵌入进行类比任务预测药物 - 基因关系
本篇研究提出了 BioConceptVec,通过利用最先进的文本挖掘工具和机器学习模型学习 PubMed 摘要中介绍的超过 400,000 个生物概念的向量表示(即嵌入),来捕捉相关概念的语义。BioConceptVec 已经在包括 9 个不同生物数据集的 2500 万实例的多个生物信息学任务中得到了全面评估,在所有任务中其性能均优于现有方法。最后,BioConceptVec 通过网站免费向研究社区和公众提供。
Dec, 2019
本文探讨了使用不同的资源如临床笔记、生物医学出版物、维基百科和新闻训练的词嵌入,经过定性和定量评估后发现,基于临床笔记和生物医学出版物训练的词嵌入能更好地捕捉医学术语的语义,更接近于专家的判断,但是,无法为所有下游生物医学 NLP 任务提供一致的全局排名,只能将它们作为额外特征来提高大多数下游任务的结果。
Feb, 2018
这篇论文介绍了 BioSentVec,自然语言处理中用于句子嵌入技术的一种新方法,并且在医学文本挖掘与语义相似度任务中取得了优异表现。
Oct, 2018
本文研究了使用银行特定语料库构建的词嵌入,相对于使用文本语料库构建的 Word2Vec 或 BERT 嵌入,银行特定语料库的嵌入在银行特定语义和词相关性的捕捉方面表现更好,因此可能成为银行业特定 NLP 任务的一种有效数据源。
Jun, 2023
本文提出了一种新颖而简单的技术,将来自不同结构的两个大型知识库中的概念知识(Wikipedia 和 Probase)整合起来,学习概念表示,并在两个任务上评估了概念嵌入模型:类比推理和概念分类,并展示了无监督环境中用于神经语义分析的参数识别的案例研究,相对于 gazetteer 和正则表达式等繁琐易出错的方法,我们的无监督方法具有更好的泛化能力。
Jan, 2018
文中提出了使用专家领域知识来构建单词嵌入向量的方法,在临床自然语言处理中获得了可观的效果。通过将单词的 “上下文” 概念推广为包括任意特征,我们展示了使用这种方法产生的单词向量在与临床专家的相关性方面普遍优于其纯文本的对应方法。
Dec, 2017
本文是一篇关于临床自然语言处理中嵌入表示法的全面调查研究,讨论了各种医学语料库及其特征、医学编码、流行嵌入模型的概述和比较,并将临床嵌入表示划分为九类,并详细讨论每种嵌入类型,探讨临床嵌入表示法中的各种挑战及可能的解决方案和未来研究方向。
Mar, 2019
使用大规模多模态医疗数据集,本文提出了一种新的 cui2vec 医疗概念词嵌入模型,并通过统计功率法进行了评估,结果表明该模型在大多数情况下相对于之前的方法具有最先进的性能。
Apr, 2018