Spike2Vec:COVID-19 Spike 序列的高效可扩展嵌入方法
本文提出了一种基于随机投影的低维嵌入方法,可以快速高效地计算不同形式的生物序列,从而避免了核方法的计算时间、内存使用和泛化性挑战。该方法的预测性能在多种真实分类任务中优于若干最先进的嵌入和核方法
Apr, 2023
本文介绍了一种名为 ViralVectors 的新型序列特征提取方法,该方法基于 minmizers 轻量级 “签名” 技术,可用于处理大量异构序列数据,能够在 SARS-CoV-2 spike 序列、Coronaviridae spike 序列和鼻咽拭子 PCR 测序数据集等多种样本数据的分类和聚类任务中优于当前基准结果。
Apr, 2023
本文首次尝试通过模拟具有错误的生物序列来测试机器学习模型的鲁棒性,并介绍了几种扰动 SARS-CoV-2 基因组序列以模拟 Illumina、PacBio 等常见测序平台的错误数据的方法。实验表明,针对特定嵌入方法,某些基于模拟的方法对输入序列的某些对抗攻击更为鲁棒(且准确)。引入的基准测试框架可帮助研究者正确评估不同的机器学习模型,并帮助他们更好地理解 SARS-CoV-2 病毒的行为或避免可能的未来大流行病。
Jul, 2022
利用敏化和信息增益的方式改善了近似核在分类冠状病毒 (SARS-CoV-2) 突刺蛋白序列变异的性能,与基线和现有的健康医疗领域方法相比,我们的方法在两个数据集上都表现出更好的性能。
Sep, 2022
本文提出了一种新的方法来预测冠状病毒宿主特异性,将 “棘蛋白” 序列进行分析,采用泊松距离校正距离矩阵来生成低维度嵌入,并应用分类算法来生成结果预测,并证明了泊松距离校正距离在机器学习环境中的重要性。
Apr, 2023
本文介绍了 SNP2Vec 这一自我监督的预训练方法,利用其来预测中国人群在阿尔茨海默氏病风险上的表现效果超过了其他基线模型,并且包含在此 https URL 中的数据集和代码。
Apr, 2022
通过基因的有组织数值表示,可以更高效地对序列进行聚类,并通过编码条形码和 cDNA 序列的序列嵌入方法和欧氏空间向量接近算法来改善相似性搜索的时间复杂性。
Aug, 2023
通过追踪特定美国州 COVID-19 子版块 Reddit 帖子的句子级表示的高密度聚类,我们将基于转换器的语言模型纳入了传染病建模中,并在许多高质量数据集中进行基准测试。结果表明,除了其他特征类型之外,这些聚类嵌入特征在预测传染病上升趋势信号方面表现最好,对于流行病学数据不可靠的领域具有重要意义。随后,在时间序列预测任务中,我们充分利用了以上模型的预测能力,并比较了使用不同补充数据集作为协变量特征集时,基于转换器的时间序列模型的相对优势。
May, 2022
本文提出了一种基于 word2vec 模型的新方法,用于训练变长 k-mers 的分布式表示。实验表明 dna2vec 向量求和类似于核苷酸串联,并且 Needleman-Wunsch 相似度得分与 dna2vec 向量的余弦相似度之间存在相关性。
Jan, 2017