Virus2Vec: 利用机器学习进行病毒序列分类

Apr, 2023

Virus2Vec: 利用机器学习进行病毒序列分类

Virus2Vec: Viral Sequence Classification Using Machine Learning

Sarwan Ali, Babatunde Bello, Prakash Chourasia, Ria Thazhe Punathil, Pin-Yu Chen...

TL;DR通过 Virus2Vec 生成的数字特征向量，可以检测病毒感染的宿主，实验结果证明了 Virus2Vec 优于其他方法。

Abstract

Understanding the host-specificity of different families of viruses sheds light on the origin of, e.g., SARS-CoV-2, rabies, and other such zoonotic pathogens in humans. It enables epidemiologists, medical professionals, and policymakers to curb existing epidemics and prevent future one

host-specificity viral hosts virus2vec coronaviridae rabies virus

发现论文，激发创造

PCD2Vec：一种基于泊松校正距离的病毒宿主分类方法

本文提出了一种新的方法来预测冠状病毒宿主特异性，将 “棘蛋白” 序列进行分析，采用泊松距离校正距离矩阵来生成低维度嵌入，并应用分类算法来生成结果预测，并证明了泊松距离校正距离在机器学习环境中的重要性。

Apr, 2023

Spike2Vec：COVID-19 Spike 序列的高效可扩展嵌入方法

利用 Spike2Vec 方法和机器学习技术，我们成功地处理了数百万条与 COVID-19 相关的基因序列，实现了精准的分类和聚类。

Sep, 2021

ViralVectors：紧凑且可扩展的无需比对的宏基因组病毒特征生成

本文介绍了一种名为 ViralVectors 的新型序列特征提取方法，该方法基于 minmizers 轻量级 “签名” 技术，可用于处理大量异构序列数据，能够在 SARS-CoV-2 spike 序列、Coronaviridae spike 序列和鼻咽拭子 PCR 测序数据集等多种样本数据的分类和聚类任务中优于当前基准结果。

Apr, 2023

NLP 与 RNA 相遇：使用 Word2Vec 进行未监督的嵌入式学习，用于核糖酶

本研究实现了 Word2Vec，一种自监督学习技术，用于学习核糖酶嵌入式，结果表明这种方法将有助于核糖酶的进一步研究和生物信息学领域的发展。

Jul, 2023

BioSequence2Vec: 生物序列嵌入生成的高效算法

本文提出了一种基于随机投影的低维嵌入方法，可以快速高效地计算不同形式的生物序列，从而避免了核方法的计算时间、内存使用和泛化性挑战。该方法的预测性能在多种真实分类任务中优于若干最先进的嵌入和核方法

Apr, 2023

基于机器学习的 Covid-19 基因组序列分类鲁棒性基准测试

本文首次尝试通过模拟具有错误的生物序列来测试机器学习模型的鲁棒性，并介绍了几种扰动 SARS-CoV-2 基因组序列以模拟 Illumina、PacBio 等常见测序平台的错误数据的方法。实验表明，针对特定嵌入方法，某些基于模拟的方法对输入序列的某些对抗攻击更为鲁棒（且准确）。引入的基准测试框架可帮助研究者正确评估不同的机器学习模型，并帮助他们更好地理解 SARS-CoV-2 病毒的行为或避免可能的未来大流行病。

Jul, 2022

一个 SARS-CoV-2 相互作用数据集和 VHH 序列语料库用于抗体语言模型

通过使用 AVIDa-SARS-CoV-2 数据集以评估抗体语言模型的表示能力，加速抗体疗法的发现与 AI 驱动的抗体发现的发展。

May, 2024

使用 PSSM 和词嵌入预测流感病毒 A 的宿主

使用机器学习模型，结合 PSSM 和词嵌入和编码等特征推断病毒宿主。结果表明基于 PSSM 的模型性能较好，MCC 约为 95%，而基于词嵌入的模型的 MCC 约为 96%。

Jan, 2022

AVScan2Vec: 基于杀毒扫描数据的特征学习，应用于大规模恶意软件语料库

本文利用杀毒软件扫描数据作为特征来进行恶意软件文件的相关性查询，并引入 AVScan2Vec 语言模型用以表示数据特征向量，结合 DCI 方法，实现了 AVScan2Vec 向量上的最近邻查询，结果显示 AVScan2Vec 向量表示方式优于其他恶意软件特征表示方式。

Jun, 2023

面向病毒 - 宿主相互作用提取的新数据集

我们描述了一种用于自动识别与病毒和宿主相关的命名分类和其他实体的新数据集，并进一步描述了使用预训练模型在该新数据集上进行命名实体识别（NER）任务的一些初步结果。我们建议，我们手动注释的摘要数据集现在为未来训练自动从科学出版物中提取宿主 - 病原体检测方法的 NER 模型提供了金标准语料库，并进一步解释了我们的工作如何自动从科学文献中预测重要的与人类健康相关的病毒溢出风险的概念。

May, 2023