BioSentVec: 为生物医学文本创建句子嵌入

Oct, 2018

BioSentVec: 为生物医学文本创建句子嵌入

BioSentVec: creating sentence embeddings for biomedical texts

Qingyu Chen, Yifan Peng, Zhiyong Lu

TL;DR这篇论文介绍了 BioSentVec，自然语言处理中用于句子嵌入技术的一种新方法，并且在医学文本挖掘与语义相似度任务中取得了优异表现。

Abstract

Sentence embeddings have become an essential part of today's natural language processing (NLP) systems, especially together advanced deep learning methods. Although pre-trained sentence encoders are available in the general domain, none exists for biomedical texts to date. In this work

sentence embedding biomedical text deep learning natural language processing scholarly articles

发现论文，激发创造

BioConceptVec：在大规模文献基础上创建和评估基于生物医学概念的嵌入

本篇研究提出了 BioConceptVec，通过利用最先进的文本挖掘工具和机器学习模型学习 PubMed 摘要中介绍的超过 400,000 个生物概念的向量表示（即嵌入），来捕捉相关概念的语义。BioConceptVec 已经在包括 9 个不同生物数据集的 2500 万实例的多个生物信息学任务中得到了全面评估，在所有任务中其性能均优于现有方法。最后，BioConceptVec 通过网站免费向研究社区和公众提供。

Dec, 2019

生物医学领域语义相似度评估的神经句子嵌入模型

本研究以 PubMed 开放获取数据集中的 1.7 百万文章为依据，研究了目前最先进的神经句子嵌入模型在生物医学文献中语义相似性估计方面的有效性；结果表明，我们提出的受监督模型在生物医学基准数据集上的表现优于以往的方法，并呼吁进一步对生物医学句子中的矛盾和否定进行研究。

Oct, 2021

利用词嵌入进行类比任务预测药物 - 基因关系

利用自然语言处理和 BioConceptVec 嵌入，预测药物和靶基因的关系，通过生物途径的分类改善性能，并通过历史关系的向量预测未知的未来关系。

Jun, 2024

生物医学自然语言处理的词嵌入比较

本文探讨了使用不同的资源如临床笔记、生物医学出版物、维基百科和新闻训练的词嵌入，经过定性和定量评估后发现，基于临床笔记和生物医学出版物训练的词嵌入能更好地捕捉医学术语的语义，更接近于专家的判断，但是，无法为所有下游生物医学 NLP 任务提供一致的全局排名，只能将它们作为额外特征来提高大多数下游任务的结果。

Feb, 2018

从大规模多模态医学数据中学习的临床概念嵌入

使用大规模多模态医疗数据集，本文提出了一种新的 cui2vec 医疗概念词嵌入模型，并通过统计功率法进行了评估，结果表明该模型在大多数情况下相对于之前的方法具有最先进的性能。

Apr, 2018

通用句子编码器

本研究介绍了一种生成句子嵌入向量的模型，旨在实现到其他自然语言处理任务的迁移学习，并探讨了模型复杂度、资源消耗、迁移任务训练数据可用性和任务性能之间的关系。作者发现句子嵌入迁移学习通常优于单词级别的迁移，并可以在极少量监督训练数据的情况下实现出人意料的良好表现。

Mar, 2018

使用临床词汇表增强字向量的 AWE-CM 向量

文中提出了使用专家领域知识来构建单词嵌入向量的方法，在临床自然语言处理中获得了可观的效果。通过将单词的 “上下文” 概念推广为包括任意特征，我们展示了使用这种方法产生的单词向量在与临床专家的相关性方面普遍优于其纯文本的对应方法。

Dec, 2017

生物医学知识图谱嵌入的基准与最佳实践

利用知识图谱嵌入学习方法，探索在 SNOMED-CT 知识图谱中学习生物医学知识表征的能力，提供性能测试及最佳实践，并强调利用知识图谱多关系特性学习知识表征的重要性。

Jun, 2020

Vec2Vec: 一种高保真度文本嵌入转换的紧凑神经网络方法

本研究提出了一个名为 Vec2Vec 的网络模型，它可以将开源的 768 维 MPNet 嵌入转换为 1,536 维的 text-ada-002 嵌入，其平均余弦相似度可达 0.932，并且可以用于以更低成本、更高效的方式进行搜索和数据隐私保护。

Jun, 2023

临床自然语言处理中嵌入技术综述

本文是一篇关于临床自然语言处理中嵌入表示法的全面调查研究，讨论了各种医学语料库及其特征、医学编码、流行嵌入模型的概述和比较，并将临床嵌入表示划分为九类，并详细讨论每种嵌入类型，探讨临床嵌入表示法中的各种挑战及可能的解决方案和未来研究方向。

Mar, 2019