NLP 与 RNA 相遇：使用 Word2Vec 进行未监督的嵌入式学习，用于核糖酶

Jul, 2023

NLP 与 RNA 相遇：使用 Word2Vec 进行未监督的嵌入式学习，用于核糖酶

NLP Meets RNA: Unsupervised Embedding Learning for Ribozymes with Word2Vec

Andrew Kean Gao

TL;DR本研究实现了 Word2Vec，一种自监督学习技术，用于学习核糖酶嵌入式，结果表明这种方法将有助于核糖酶的进一步研究和生物信息学领域的发展。

Abstract

ribozymes, RNA molecules with distinct 3D structures and catalytic activity, have widespread applications in synthetic biology and therapeutics. However, relatively little research has focused on leveraging deep learnin

ribozymes deep learning word2vec natural language processing bioinformatics

发现论文，激发创造

BioSequence2Vec: 生物序列嵌入生成的高效算法

本文提出了一种基于随机投影的低维嵌入方法，可以快速高效地计算不同形式的生物序列，从而避免了核方法的计算时间、内存使用和泛化性挑战。该方法的预测性能在多种真实分类任务中优于若干最先进的嵌入和核方法

Apr, 2023

利用词嵌入进行类比任务预测药物 - 基因关系

利用自然语言处理和 BioConceptVec 嵌入，预测药物和靶基因的关系，通过生物途径的分类改善性能，并通过历史关系的向量预测未知的未来关系。

Jun, 2024

从语音中学习词嵌入

从原始语音中，无监督地提取固定长度的向量表示语音片段的语义信息，通过 RNN 编码器 - 解码器模型和连续 Skip-Grams 方法进行训练，并在 13 个常用词汇相似度基准测试中获得了和 GloVe 相媲美的结果。

Nov, 2017

BioConceptVec：在大规模文献基础上创建和评估基于生物医学概念的嵌入

本篇研究提出了 BioConceptVec，通过利用最先进的文本挖掘工具和机器学习模型学习 PubMed 摘要中介绍的超过 400,000 个生物概念的向量表示（即嵌入），来捕捉相关概念的语义。BioConceptVec 已经在包括 9 个不同生物数据集的 2500 万实例的多个生物信息学任务中得到了全面评估，在所有任务中其性能均优于现有方法。最后，BioConceptVec 通过网站免费向研究社区和公众提供。

Dec, 2019

语言嵌入中受生物启发的结构识别

本研究使用生物启发方法来遍历和可视化词嵌入，并显示了其可理解的结构。此外，我们的模型还生成可信的单词相似性排名。我们还展示了使用生物启发模型在不同的单词嵌入技术之间进行比较，以研究其对语义输出的影响，这可以强调或模糊文本数据中的特定解释。

Sep, 2020

Speech2Vec: 从语音中学习词嵌入的序列到序列框架

本文提出一种新颖的深度神经网络架构 Speech2Vec，用于从语音语料库中学习固定长度的音频片段矢量表示，其向量包含有关底层口语词汇的语义信息，并且如果它们的对应的底层口语词汇在语义上相似，则在嵌入空间中靠近其他向量。 Speech2Vec 的设计基于 RNN 编码器 - 解码器框架，并借用 skipgrams 或连续词袋的方法进行训练。直接从语音中学习单词嵌入使 Speech2Vec 能够利用语音中的语义信息，在 13 个广泛使用的单词相似性基准测试中评估和分析了学习的单词嵌入，并且胜过了从转录中学习的 Word2Vec 单词嵌入。

Mar, 2018

ProtTrans：通过自监督深度学习与高性能计算攻克生命密码的语言

通过训练两个自回归模型和四个自编码器模型，使用生物信息数据培训出来的语言模型（Language Models）能够在低推断开销下完成新的前沿预测，例如使用蛋白 LM - 嵌入 (ProtT5) 能够在无需使用进化信息的情况下，成功地进行氨基酸序列每残基预测，并出现在这个 https URL。

Jul, 2020

利用结构信息学习蛋白质序列嵌入

本研究提出了一种基于表征学习的框架，将蛋白质序列映射到表示蛋白质结构信息的序列向量中，并通过双向 LSTM 模型和全局结构相似度以及单个蛋白质残基接触映射的反馈机制进行训练，实现了蛋白质序列在预测结构相似性方面的多任务学习，而且该方法在跨膜域预测方面也取得了优异的表现。

Feb, 2019

Virus2Vec: 利用机器学习进行病毒序列分类

通过 Virus2Vec 生成的数字特征向量，可以检测病毒感染的宿主，实验结果证明了 Virus2Vec 优于其他方法。

Apr, 2023

词向量能够捕捉词语的节奏相似性

本文探究了诸如 Word2Vec 和 GloVe 等词嵌入系统在捕捉单词韵律相似性方面的实用性。结果显示，这些嵌入分配给押韵单词的向量更相似。同时也揭示了相比于 Word2Vec，GloVe 在这方面表现相对更好。文章还提出了一种首次量化单词韵律相似性的度量标准。

Apr, 2022