Jul, 2022

基于机器学习的 Covid-19 基因组序列分类鲁棒性基准测试

TL;DR本文首次尝试通过模拟具有错误的生物序列来测试机器学习模型的鲁棒性,并介绍了几种扰动 SARS-CoV-2 基因组序列以模拟 Illumina、PacBio 等常见测序平台的错误数据的方法。实验表明,针对特定嵌入方法,某些基于模拟的方法对输入序列的某些对抗攻击更为鲁棒(且准确)。引入的基准测试框架可帮助研究者正确评估不同的机器学习模型,并帮助他们更好地理解 SARS-CoV-2 病毒的行为或避免可能的未来大流行病。