Spike2Vec：COVID-19 Spike 序列的高效可扩展嵌入方法

Sep, 2021

Spike2Vec：COVID-19 Spike 序列的高效可扩展嵌入方法

Spike2Vec: An Efficient and Scalable Embedding Approach for COVID-19 Spike Sequences

Sarwan Ali, Murray Patterson

TL;DR利用 Spike2Vec 方法和机器学习技术，我们成功地处理了数百万条与 COVID-19 相关的基因序列，实现了精准的分类和聚类。

Abstract

With the rapid global spread of covid-19, more and more data related to this virus is becoming available, including genomic sequence data. The total number of genomic sequences that are publicly available on plat

covid-19 genomic sequence big data spike2vec machine learning

发现论文，激发创造

BioSequence2Vec: 生物序列嵌入生成的高效算法

本文提出了一种基于随机投影的低维嵌入方法，可以快速高效地计算不同形式的生物序列，从而避免了核方法的计算时间、内存使用和泛化性挑战。该方法的预测性能在多种真实分类任务中优于若干最先进的嵌入和核方法

Apr, 2023

Virus2Vec: 利用机器学习进行病毒序列分类

通过 Virus2Vec 生成的数字特征向量，可以检测病毒感染的宿主，实验结果证明了 Virus2Vec 优于其他方法。

Apr, 2023

ViralVectors：紧凑且可扩展的无需比对的宏基因组病毒特征生成

本文介绍了一种名为 ViralVectors 的新型序列特征提取方法，该方法基于 minmizers 轻量级 “签名” 技术，可用于处理大量异构序列数据，能够在 SARS-CoV-2 spike 序列、Coronaviridae spike 序列和鼻咽拭子 PCR 测序数据集等多种样本数据的分类和聚类任务中优于当前基准结果。

Apr, 2023

基于机器学习的 Covid-19 基因组序列分类鲁棒性基准测试

本文首次尝试通过模拟具有错误的生物序列来测试机器学习模型的鲁棒性，并介绍了几种扰动 SARS-CoV-2 基因组序列以模拟 Illumina、PacBio 等常见测序平台的错误数据的方法。实验表明，针对特定嵌入方法，某些基于模拟的方法对输入序列的某些对抗攻击更为鲁棒（且准确）。引入的基准测试框架可帮助研究者正确评估不同的机器学习模型，并帮助他们更好地理解 SARS-CoV-2 病毒的行为或避免可能的未来大流行病。

Jul, 2022

高效近似内核基于尖峰序列分类

利用敏化和信息增益的方式改善了近似核在分类冠状病毒 (SARS-CoV-2) 突刺蛋白序列变异的性能，与基线和现有的健康医疗领域方法相比，我们的方法在两个数据集上都表现出更好的性能。

Sep, 2022

PCD2Vec：一种基于泊松校正距离的病毒宿主分类方法

本文提出了一种新的方法来预测冠状病毒宿主特异性，将 “棘蛋白” 序列进行分析，采用泊松距离校正距离矩阵来生成低维度嵌入，并应用分类算法来生成结果预测，并证明了泊松距离校正距离在机器学习环境中的重要性。

Apr, 2023

SNP2Vec: 可扩展的自监督预训练方法应用于全基因组关联分析

本文介绍了 SNP2Vec 这一自我监督的预训练方法，利用其来预测中国人群在阿尔茨海默氏病风险上的表现效果超过了其他基线模型，并且包含在此 https URL 中的数据集和代码。

Apr, 2022

通过序列相似性和上下文进行改进的矢量嵌入：用于 cDNA 图书馆的压缩、相似性搜索、聚类、组织和操作

通过基因的有组织数值表示，可以更高效地对序列进行聚类，并通过编码条形码和 cDNA 序列的序列嵌入方法和欧氏空间向量接近算法来改善相似性搜索的时间复杂性。

Aug, 2023

利用社交媒体帖子的无监督嵌入聚类预测 COVID-19 病例负载

通过追踪特定美国州 COVID-19 子版块 Reddit 帖子的句子级表示的高密度聚类，我们将基于转换器的语言模型纳入了传染病建模中，并在许多高质量数据集中进行基准测试。结果表明，除了其他特征类型之外，这些聚类嵌入特征在预测传染病上升趋势信号方面表现最好，对于流行病学数据不可靠的领域具有重要意义。随后，在时间序列预测任务中，我们充分利用了以上模型的预测能力，并比较了使用不同补充数据集作为协变量特征集时，基于转换器的时间序列模型的相对优势。

May, 2022

dna2vec: 可变长度 k-mer 的一致向量表示

本文提出了一种基于 word2vec 模型的新方法，用于训练变长 k-mers 的分布式表示。实验表明 dna2vec 向量求和类似于核苷酸串联，并且 Needleman-Wunsch 相似度得分与 dna2vec 向量的余弦相似度之间存在相关性。

Jan, 2017