基于机器学习的 Covid-19 基因组序列分类鲁棒性基准测试

Jul, 2022

基于机器学习的 Covid-19 基因组序列分类鲁棒性基准测试

Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence Classification

Sarwan Ali, Bikram Sahoo, Alexander Zelikovskiy, Pin-Yu Chen, Murray Patterson

TL;DR本文首次尝试通过模拟具有错误的生物序列来测试机器学习模型的鲁棒性，并介绍了几种扰动 SARS-CoV-2 基因组序列以模拟 Illumina、PacBio 等常见测序平台的错误数据的方法。实验表明，针对特定嵌入方法，某些基于模拟的方法对输入序列的某些对抗攻击更为鲁棒（且准确）。引入的基准测试框架可帮助研究者正确评估不同的机器学习模型，并帮助他们更好地理解 SARS-CoV-2 病毒的行为或避免可能的未来大流行病。

Abstract

The rapid spread of the covid-19 pandemic has resulted in an unprecedented amount of sequence data of the SARS-CoV-2 genome -- millions of sequences and counting. This amount of data, while being orders of magnitude beyond the capacity of traditional approaches to understanding the div

covid-19 sars-cov-2 genome sequences machine learning benchmarking simulating biological sequences

发现论文，激发创造

Spike2Vec：COVID-19 Spike 序列的高效可扩展嵌入方法

利用 Spike2Vec 方法和机器学习技术，我们成功地处理了数百万条与 COVID-19 相关的基因序列，实现了精准的分类和聚类。

Sep, 2021

高效近似内核基于尖峰序列分类

利用敏化和信息增益的方式改善了近似核在分类冠状病毒 (SARS-CoV-2) 突刺蛋白序列变异的性能，与基线和现有的健康医疗领域方法相比，我们的方法在两个数据集上都表现出更好的性能。

Sep, 2022

利用机器学习和自然语言处理方法来研究 COVID-19 研究的时间演变

本研究通过多种数据源建立了多个机器学习模型对当前 COVID-19 研究场景进行了表征，包括识别潜在主题、分析出版物相似性和情感。结果表明 PubMed 和 ArXiv 中的研究类型存在显著区别，前者在 COVID-19 相关问题的多样性方面具有更大的多样性，后者则更关注预测 / 诊断 COVID-19 的智能系统 / 工具。研究团队对高危人群和并发症患者的特别关注也得到了证实。

Jul, 2020

预测基因突变的功能丧失影响：一种机器学习方法

本文研究了利用下一代测序技术进行基因组测序以及使用机器学习模型预测 LoFtool 分数和基因突变的相关特性，通过建立多个模型并评估其性能，得到了测试集 r 平方值为 0.97 的结果。

Jan, 2024

机器学习建模研究 SiRNA 结构 - 效能关系在抗击 Sars-Cov-2 刺突基因中的应用

开发基于化学信息学表示的 siRNA 的机器学习模型以预测其效力，并选择最有效的 siRNA 分子进行进一步的发展，证明了 AI / 机器学习模型在加速 siRNA 基于药物发现方面的潜力。

Jan, 2024

PathoLM: 通过基因组基础模型从 DNA 序列识别致病性

通过引入 PathoLM，我们为细菌和病毒序列的致病性鉴定提供了一种优化方法。 PathoLM 可以有效捕捉更广泛的基因组上下文，显著提高了对新颖和多样化病原体的鉴定能力。同时，在 ESKAPEE 物种分类中，PathoLM-Sp 相较于其他深度学习方法展现出卓越的性能。

Jun, 2024

Virus2Vec: 利用机器学习进行病毒序列分类

通过 Virus2Vec 生成的数字特征向量，可以检测病毒感染的宿主，实验结果证明了 Virus2Vec 优于其他方法。

Apr, 2023

基于症状的机器学习模型用于 COVID-19 的早期检测：文献综述

通过病人症状，临床数据和医疗成像的大数据集，机器学习模型能够分析预测 COVID-19，其中症状为基础的模型表现良好，但图像为基础的模型的精确度通常较高。

Dec, 2023

BEND：对 DNA 语言模型在有生物学意义的任务上进行基准测试

基因组序列是指导细胞过程的蓝图，该研究介绍了一种基于人类基因组的 DNA 语言模型评估方法 BEND，该模型能够在某些任务上接近专家方法的性能，但仅能捕获关于长程特征的有限信息。

Nov, 2023

BioSequence2Vec: 生物序列嵌入生成的高效算法

本文提出了一种基于随机投影的低维嵌入方法，可以快速高效地计算不同形式的生物序列，从而避免了核方法的计算时间、内存使用和泛化性挑战。该方法的预测性能在多种真实分类任务中优于若干最先进的嵌入和核方法

Apr, 2023