BioSentVec: 为生物医学文本创建句子嵌入
本篇研究提出了 BioConceptVec,通过利用最先进的文本挖掘工具和机器学习模型学习 PubMed 摘要中介绍的超过 400,000 个生物概念的向量表示(即嵌入),来捕捉相关概念的语义。BioConceptVec 已经在包括 9 个不同生物数据集的 2500 万实例的多个生物信息学任务中得到了全面评估,在所有任务中其性能均优于现有方法。最后,BioConceptVec 通过网站免费向研究社区和公众提供。
Dec, 2019
本研究以 PubMed 开放获取数据集中的 1.7 百万文章为依据,研究了目前最先进的神经句子嵌入模型在生物医学文献中语义相似性估计方面的有效性;结果表明,我们提出的受监督模型在生物医学基准数据集上的表现优于以往的方法,并呼吁进一步对生物医学句子中的矛盾和否定进行研究。
Oct, 2021
利用自然语言处理和 BioConceptVec 嵌入,预测药物和靶基因的关系,通过生物途径的分类改善性能,并通过历史关系的向量预测未知的未来关系。
Jun, 2024
本文探讨了使用不同的资源如临床笔记、生物医学出版物、维基百科和新闻训练的词嵌入,经过定性和定量评估后发现,基于临床笔记和生物医学出版物训练的词嵌入能更好地捕捉医学术语的语义,更接近于专家的判断,但是,无法为所有下游生物医学 NLP 任务提供一致的全局排名,只能将它们作为额外特征来提高大多数下游任务的结果。
Feb, 2018
使用大规模多模态医疗数据集,本文提出了一种新的 cui2vec 医疗概念词嵌入模型,并通过统计功率法进行了评估,结果表明该模型在大多数情况下相对于之前的方法具有最先进的性能。
Apr, 2018
本研究介绍了一种生成句子嵌入向量的模型,旨在实现到其他自然语言处理任务的迁移学习,并探讨了模型复杂度、资源消耗、迁移任务训练数据可用性和任务性能之间的关系。作者发现句子嵌入迁移学习通常优于单词级别的迁移,并可以在极少量监督训练数据的情况下实现出人意料的良好表现。
Mar, 2018
文中提出了使用专家领域知识来构建单词嵌入向量的方法,在临床自然语言处理中获得了可观的效果。通过将单词的 “上下文” 概念推广为包括任意特征,我们展示了使用这种方法产生的单词向量在与临床专家的相关性方面普遍优于其纯文本的对应方法。
Dec, 2017
利用知识图谱嵌入学习方法,探索在 SNOMED-CT 知识图谱中学习生物医学知识表征的能力,提供性能测试及最佳实践,并强调利用知识图谱多关系特性学习知识表征的重要性。
Jun, 2020
本研究提出了一个名为 Vec2Vec 的网络模型,它可以将开源的 768 维 MPNet 嵌入转换为 1,536 维的 text-ada-002 嵌入,其平均余弦相似度可达 0.932,并且可以用于以更低成本、更高效的方式进行搜索和数据隐私保护。
Jun, 2023
本文是一篇关于临床自然语言处理中嵌入表示法的全面调查研究,讨论了各种医学语料库及其特征、医学编码、流行嵌入模型的概述和比较,并将临床嵌入表示划分为九类,并详细讨论每种嵌入类型,探讨临床嵌入表示法中的各种挑战及可能的解决方案和未来研究方向。
Mar, 2019