基于疾病概念的生物医学文档聚类与可视化

KDDOct, 2018

基于疾病概念的生物医学文档聚类与可视化

Biomedical Document Clustering and Visualization based on the Concepts of Diseases

Setu Shah, Xiao Luo

TL;DR本文介绍了一种基于向量表示和自组织映射的医学文献聚类技术，能够提供更好的文献搜索和浏览体验，并在实验中验证了该技术的有效性。

Abstract

document clustering is a text mining technique used to provide better document search and browsing in digital libraries or online corpora. A lot of research has been done on →

document clustering text mining biomedical vector space model self-organizing map

发现论文，激发创造

基于弱监督深度学习的生物医学文献大规模细粒度语义索引

本研究提出了一种基于深度学习的自动化主题注解细化方法，通过在文章摘要中的概念出现来进行弱监督，发现概念出现是自动化主题注解细化的强有力依据，还可以与基于字典的启发式算法相结合以进一步提高准确率。

Jan, 2023

使用分散表示消除生物医学和临床概念的歧义

本文报告了一种在生物医学和临床文本领域中进行词义消歧的基于知识的方法。我们结合大规模语料库上创建的词表示和来自 UMLS 的少量定义创建概念表示，然后将其与含糊术语上下文的表示进行比较。使用无关系信息，我们在生物医学领域中已知的数据集（MSH-WSD 数据集）上获得了可比较的性能。此外，我们的方法快速、易于设置和扩展到其他领域。

Aug, 2016

利用词汇驱动的 Word2vec 方法从非结构化文本中表征疾病

本文介绍了一种基于疾病词汇的 word2vec 模型（Dis2Vec），用于自动创建疾病分类法，以便更准确地进行疾病监测。结果表明，Dis2Vec 比传统方法更能准确地捕捉不同类别疾病的分类属性，并且性能更好。

Mar, 2016

将医学概念向量表示改进以提高语义相似度和相关性估计

本文提出了一种方法，通过使用 UMLS Metathesaurus 的结构信息对医学概念的分布上下文向量表示进行适应性改进，从而提高了链接概念之间向量表示的相似度，极大地提高了自动化方法的性能。

Sep, 2017

从文本中丰富本体学：一个用于概念发现和定位的生物医学数据集

通过自动化方法将新概念放入知识库，提出基于 MedMentions 数据集的新基准来解决既定数据集常见的问题，并通过最近的大型语言模型方法进行评估。

Jun, 2023

BioConceptVec：在大规模文献基础上创建和评估基于生物医学概念的嵌入

本篇研究提出了 BioConceptVec，通过利用最先进的文本挖掘工具和机器学习模型学习 PubMed 摘要中介绍的超过 400,000 个生物概念的向量表示（即嵌入），来捕捉相关概念的语义。BioConceptVec 已经在包括 9 个不同生物数据集的 2500 万实例的多个生物信息学任务中得到了全面评估，在所有任务中其性能均优于现有方法。最后，BioConceptVec 通过网站免费向研究社区和公众提供。

Dec, 2019

从大规模多模态医学数据中学习的临床概念嵌入

使用大规模多模态医疗数据集，本文提出了一种新的 cui2vec 医疗概念词嵌入模型，并通过统计功率法进行了评估，结果表明该模型在大多数情况下相对于之前的方法具有最先进的性能。

Apr, 2018

医学概念的多层表示学习

本研究提出了一种基于电子病历数据的的 Med2Vec 方法，通过学习医学代码和访问的分布式表示形式，利用序列访问顺序和访问内部代码的共现关系提供临床医生可验证的基础，在关键医学应用中显示出与流行基线（如 Skip-gram、GloVe 和堆叠自动编码器）相比的显着改进。

Feb, 2016

具备时间感知的医疗概念嵌入

本研究使用连续词袋模型和注意力机制以及加入时间信息的方法进行医疗代码嵌入，实验结果表明该方法明显优于五种现有的基准模型。

Jun, 2018

应用深度学习技术于全球网络中的医学语料库：一个原型系统与评估

本研究采用 Word2Vec 深度学习工具对医学语料库进行了测试，以验证其在未结构化文本中识别关系的潜力，结果表明 Word2Vec 的排名生成和检索结果质量不足以用于知识库自动填充，但可作为手动筛选的起点。

Feb, 2015