应用深度学习技术于全球网络中的医学语料库：一个原型系统与评估

Feb, 2015

应用深度学习技术于全球网络中的医学语料库：一个原型系统与评估

Applying deep learning techniques on medical corpora from the World Wide Web: a prototypical system and evaluation

Jose Antonio Miñarro-Giménez, Oscar Marín-Alonso, Matthias Samwald

TL;DR本研究采用 Word2Vec 深度学习工具对医学语料库进行了测试，以验证其在未结构化文本中识别关系的潜力，结果表明 Word2Vec 的排名生成和检索结果质量不足以用于知识库自动填充，但可作为手动筛选的起点。

Abstract

BACKGROUND: The amount of biomedical literature is rapidly growing and it is becoming increasingly difficult to keep manually curated knowledge bases and ontologies up-to-date. In this study we applied the word2vec deep learning toolkit to →

word2vec medical corpora pharmaceuticals ndf-rt ontology textual data

发现论文，激发创造

利用词汇驱动的 Word2vec 方法从非结构化文本中表征疾病

本文介绍了一种基于疾病词汇的 word2vec 模型（Dis2Vec），用于自动创建疾病分类法，以便更准确地进行疾病监测。结果表明，Dis2Vec 比传统方法更能准确地捕捉不同类别疾病的分类属性，并且性能更好。

Mar, 2016

从大规模多模态医学数据中学习的临床概念嵌入

使用大规模多模态医疗数据集，本文提出了一种新的 cui2vec 医疗概念词嵌入模型，并通过统计功率法进行了评估，结果表明该模型在大多数情况下相对于之前的方法具有最先进的性能。

Apr, 2018

一种用深度学习实现医疗关系抽取的混合方法

本研究提出了一种深度学习方法，利用单词级和句子级表示同时提取治疗和问题之间的关系，以用于医疗决策支持系统、安全监测和新治疗发现。通过深度学习和基于规则的模型的联合结果获得了最终的关联关系。该系统在 I2b2 2010 关系提取任务的关系类别上取得了有前途的表现。

Jun, 2018

使用临床词汇表增强字向量的 AWE-CM 向量

文中提出了使用专家领域知识来构建单词嵌入向量的方法，在临床自然语言处理中获得了可观的效果。通过将单词的 “上下文” 概念推广为包括任意特征，我们展示了使用这种方法产生的单词向量在与临床专家的相关性方面普遍优于其纯文本的对应方法。

Dec, 2017

生物医学自然语言处理的词嵌入比较

本文探讨了使用不同的资源如临床笔记、生物医学出版物、维基百科和新闻训练的词嵌入，经过定性和定量评估后发现，基于临床笔记和生物医学出版物训练的词嵌入能更好地捕捉医学术语的语义，更接近于专家的判断，但是，无法为所有下游生物医学 NLP 任务提供一致的全局排名，只能将它们作为额外特征来提高大多数下游任务的结果。

Feb, 2018

BioConceptVec：在大规模文献基础上创建和评估基于生物医学概念的嵌入

本篇研究提出了 BioConceptVec，通过利用最先进的文本挖掘工具和机器学习模型学习 PubMed 摘要中介绍的超过 400,000 个生物概念的向量表示（即嵌入），来捕捉相关概念的语义。BioConceptVec 已经在包括 9 个不同生物数据集的 2500 万实例的多个生物信息学任务中得到了全面评估，在所有任务中其性能均优于现有方法。最后，BioConceptVec 通过网站免费向研究社区和公众提供。

Dec, 2019

医学语言嵌入的知识转移

该研究使用分布语义学将结构化知识图谱与非结构化文本相结合，利用概率生成模型预测医学概念之间的新关系，进一步证明该方法可用于医学领域的数据稀缺性问题。

Feb, 2016

Company2Vec -- 基于公司网站的德国公司嵌入

使用 Company2Vec 模型，通过对公司网站数据进行 Word2Vec 嵌入和降维分析，本研究论文提出了一种新的表示学习应用。Company2Vec 能够维护语义语言结构，并在精细粒度的行业中创建高效的公司嵌入。这些语义嵌入可用于银行业的各种应用，包括语义业务分析和行业预测等。矢量化的嵌入结构还可通过余弦距离衡量公司之间的相似性，从而提供比标准行业标签（NACE）更细粒度的公司比较方法。此外，研究提供了基于公司嵌入的 k-means 聚类的替代行业分割方法，最后还提出了三种算法用于对等公司识别，包括以公司为中心、以行业为中心和以投资组合为中心。

Jul, 2023

生物医学关系抽取方法和模型比较及其在知识图谱构建中的应用

本研究介绍比较了在构建知识图谱中用于从生物医学文献中提取关系方面的一些基于规则和基于机器学习的方法，例如：朴素贝叶斯、随机森林、DistilBERT、PubMedBERT、T5、SciFive 等，通过实验检测不同方法的适用性和鲁棒性。结果表明，基于 transformers 的模型（如 PubMedBERT）在处理小型和不平衡的数据时表现较好。其中，在平衡数据上，PubMedBERT 模型的 F1 得分最高（0.92）。

Jan, 2022

利用语义桥梁学习罕见词汇的表示

本文提出一种方法学习语言的词汇，并使用图嵌入技术和跨语言向量空间映射方法结合本体源和语料库来提高现有词向量的覆盖范围以及加强其词汇知识。所提出的方法在 Rare Word Similarity dataset 上表现出 10% 的性能提升。

Jul, 2017