Virus2Vec: 利用机器学习进行病毒序列分类
本文提出了一种新的方法来预测冠状病毒宿主特异性,将 “棘蛋白” 序列进行分析,采用泊松距离校正距离矩阵来生成低维度嵌入,并应用分类算法来生成结果预测,并证明了泊松距离校正距离在机器学习环境中的重要性。
Apr, 2023
利用 Spike2Vec 方法和机器学习技术,我们成功地处理了数百万条与 COVID-19 相关的基因序列,实现了精准的分类和聚类。
Sep, 2021
本文介绍了一种名为 ViralVectors 的新型序列特征提取方法,该方法基于 minmizers 轻量级 “签名” 技术,可用于处理大量异构序列数据,能够在 SARS-CoV-2 spike 序列、Coronaviridae spike 序列和鼻咽拭子 PCR 测序数据集等多种样本数据的分类和聚类任务中优于当前基准结果。
Apr, 2023
本研究实现了 Word2Vec,一种自监督学习技术,用于学习核糖酶嵌入式,结果表明这种方法将有助于核糖酶的进一步研究和生物信息学领域的发展。
Jul, 2023
本文提出了一种基于随机投影的低维嵌入方法,可以快速高效地计算不同形式的生物序列,从而避免了核方法的计算时间、内存使用和泛化性挑战。该方法的预测性能在多种真实分类任务中优于若干最先进的嵌入和核方法
Apr, 2023
本文首次尝试通过模拟具有错误的生物序列来测试机器学习模型的鲁棒性,并介绍了几种扰动 SARS-CoV-2 基因组序列以模拟 Illumina、PacBio 等常见测序平台的错误数据的方法。实验表明,针对特定嵌入方法,某些基于模拟的方法对输入序列的某些对抗攻击更为鲁棒(且准确)。引入的基准测试框架可帮助研究者正确评估不同的机器学习模型,并帮助他们更好地理解 SARS-CoV-2 病毒的行为或避免可能的未来大流行病。
Jul, 2022
通过使用 AVIDa-SARS-CoV-2 数据集以评估抗体语言模型的表示能力,加速抗体疗法的发现与 AI 驱动的抗体发现的发展。
May, 2024
使用机器学习模型,结合 PSSM 和词嵌入和编码等特征推断病毒宿主。结果表明基于 PSSM 的模型性能较好,MCC 约为 95%,而基于词嵌入的模型的 MCC 约为 96%。
Jan, 2022
本文利用杀毒软件扫描数据作为特征来进行恶意软件文件的相关性查询,并引入 AVScan2Vec 语言模型用以表示数据特征向量,结合 DCI 方法,实现了 AVScan2Vec 向量上的最近邻查询,结果显示 AVScan2Vec 向量表示方式优于其他恶意软件特征表示方式。
Jun, 2023
我们描述了一种用于自动识别与病毒和宿主相关的命名分类和其他实体的新数据集,并进一步描述了使用预训练模型在该新数据集上进行命名实体识别(NER)任务的一些初步结果。我们建议,我们手动注释的摘要数据集现在为未来训练自动从科学出版物中提取宿主 - 病原体检测方法的 NER 模型提供了金标准语料库,并进一步解释了我们的工作如何自动从科学文献中预测重要的与人类健康相关的病毒溢出风险的概念。
May, 2023