NLP 与 RNA 相遇:使用 Word2Vec 进行未监督的嵌入式学习,用于核糖酶
本文提出了一种基于随机投影的低维嵌入方法,可以快速高效地计算不同形式的生物序列,从而避免了核方法的计算时间、内存使用和泛化性挑战。该方法的预测性能在多种真实分类任务中优于若干最先进的嵌入和核方法
Apr, 2023
利用自然语言处理和 BioConceptVec 嵌入,预测药物和靶基因的关系,通过生物途径的分类改善性能,并通过历史关系的向量预测未知的未来关系。
Jun, 2024
从原始语音中,无监督地提取固定长度的向量表示语音片段的语义信息,通过 RNN 编码器 - 解码器模型和连续 Skip-Grams 方法进行训练,并在 13 个常用词汇相似度基准测试中获得了和 GloVe 相媲美的结果。
Nov, 2017
本篇研究提出了 BioConceptVec,通过利用最先进的文本挖掘工具和机器学习模型学习 PubMed 摘要中介绍的超过 400,000 个生物概念的向量表示(即嵌入),来捕捉相关概念的语义。BioConceptVec 已经在包括 9 个不同生物数据集的 2500 万实例的多个生物信息学任务中得到了全面评估,在所有任务中其性能均优于现有方法。最后,BioConceptVec 通过网站免费向研究社区和公众提供。
Dec, 2019
本研究使用生物启发方法来遍历和可视化词嵌入,并显示了其可理解的结构。此外,我们的模型还生成可信的单词相似性排名。我们还展示了使用生物启发模型在不同的单词嵌入技术之间进行比较,以研究其对语义输出的影响,这可以强调或模糊文本数据中的特定解释。
Sep, 2020
本文提出一种新颖的深度神经网络架构 Speech2Vec,用于从语音语料库中学习固定长度的音频片段矢量表示,其向量包含有关底层口语词汇的语义信息,并且如果它们的对应的底层口语词汇在语义上相似,则在嵌入空间中靠近其他向量。 Speech2Vec 的设计基于 RNN 编码器 - 解码器框架,并借用 skipgrams 或连续词袋的方法进行训练。直接从语音中学习单词嵌入使 Speech2Vec 能够利用语音中的语义信息,在 13 个广泛使用的单词相似性基准测试中评估和分析了学习的单词嵌入,并且胜过了从转录中学习的 Word2Vec 单词嵌入。
Mar, 2018
通过训练两个自回归模型和四个自编码器模型,使用生物信息数据培训出来的语言模型(Language Models)能够在低推断开销下完成新的前沿预测,例如使用蛋白 LM - 嵌入 (ProtT5) 能够在无需使用进化信息的情况下,成功地进行氨基酸序列每残基预测,并出现在这个 https URL。
Jul, 2020
本研究提出了一种基于表征学习的框架,将蛋白质序列映射到表示蛋白质结构信息的序列向量中,并通过双向 LSTM 模型和全局结构相似度以及单个蛋白质残基接触映射的反馈机制进行训练,实现了蛋白质序列在预测结构相似性方面的多任务学习,而且该方法在跨膜域预测方面也取得了优异的表现。
Feb, 2019
本文探究了诸如 Word2Vec 和 GloVe 等词嵌入系统在捕捉单词韵律相似性方面的实用性。结果显示,这些嵌入分配给押韵单词的向量更相似。同时也揭示了相比于 Word2Vec,GloVe 在这方面表现相对更好。文章还提出了一种首次量化单词韵律相似性的度量标准。
Apr, 2022