应用深度学习技术于全球网络中的医学语料库:一个原型系统与评估
本文介绍了一种基于疾病词汇的 word2vec 模型(Dis2Vec),用于自动创建疾病分类法,以便更准确地进行疾病监测。结果表明,Dis2Vec 比传统方法更能准确地捕捉不同类别疾病的分类属性,并且性能更好。
Mar, 2016
使用大规模多模态医疗数据集,本文提出了一种新的 cui2vec 医疗概念词嵌入模型,并通过统计功率法进行了评估,结果表明该模型在大多数情况下相对于之前的方法具有最先进的性能。
Apr, 2018
本研究提出了一种深度学习方法,利用单词级和句子级表示同时提取治疗和问题之间的关系,以用于医疗决策支持系统、安全监测和新治疗发现。通过深度学习和基于规则的模型的联合结果获得了最终的关联关系。该系统在 I2b2 2010 关系提取任务的关系类别上取得了有前途的表现。
Jun, 2018
文中提出了使用专家领域知识来构建单词嵌入向量的方法,在临床自然语言处理中获得了可观的效果。通过将单词的 “上下文” 概念推广为包括任意特征,我们展示了使用这种方法产生的单词向量在与临床专家的相关性方面普遍优于其纯文本的对应方法。
Dec, 2017
本文探讨了使用不同的资源如临床笔记、生物医学出版物、维基百科和新闻训练的词嵌入,经过定性和定量评估后发现,基于临床笔记和生物医学出版物训练的词嵌入能更好地捕捉医学术语的语义,更接近于专家的判断,但是,无法为所有下游生物医学 NLP 任务提供一致的全局排名,只能将它们作为额外特征来提高大多数下游任务的结果。
Feb, 2018
本篇研究提出了 BioConceptVec,通过利用最先进的文本挖掘工具和机器学习模型学习 PubMed 摘要中介绍的超过 400,000 个生物概念的向量表示(即嵌入),来捕捉相关概念的语义。BioConceptVec 已经在包括 9 个不同生物数据集的 2500 万实例的多个生物信息学任务中得到了全面评估,在所有任务中其性能均优于现有方法。最后,BioConceptVec 通过网站免费向研究社区和公众提供。
Dec, 2019
使用 Company2Vec 模型,通过对公司网站数据进行 Word2Vec 嵌入和降维分析,本研究论文提出了一种新的表示学习应用。Company2Vec 能够维护语义语言结构,并在精细粒度的行业中创建高效的公司嵌入。这些语义嵌入可用于银行业的各种应用,包括语义业务分析和行业预测等。矢量化的嵌入结构还可通过余弦距离衡量公司之间的相似性,从而提供比标准行业标签(NACE)更细粒度的公司比较方法。此外,研究提供了基于公司嵌入的 k-means 聚类的替代行业分割方法,最后还提出了三种算法用于对等公司识别,包括以公司为中心、以行业为中心和以投资组合为中心。
Jul, 2023
本研究介绍比较了在构建知识图谱中用于从生物医学文献中提取关系方面的一些基于规则和基于机器学习的方法,例如:朴素贝叶斯、随机森林、DistilBERT、PubMedBERT、T5、SciFive 等,通过实验检测不同方法的适用性和鲁棒性。结果表明,基于 transformers 的模型(如 PubMedBERT)在处理小型和不平衡的数据时表现较好。其中,在平衡数据上,PubMedBERT 模型的 F1 得分最高(0.92)。
Jan, 2022
本文提出一种方法学习语言的词汇,并使用图嵌入技术和跨语言向量空间映射方法结合本体源和语料库来提高现有词向量的覆盖范围以及加强其词汇知识。所提出的方法在 Rare Word Similarity dataset 上表现出 10% 的性能提升。
Jul, 2017