Nov, 2023

基因序列聚类和多序列比对中参考序列的线性归一化哈希函数

TL;DR该研究开发了一种方法来识别不同敏感性水平下的聚类中心和最佳聚类数量,并可以在不同的序列数据集上同样有效地工作。该方法结合了线性映射哈希函数和多序列比对(MSA),利用已由 MSA 输出排序相似性的序列,识别了能表示不同物种参考基因凭证的最佳聚类数量、聚类截断点和聚类中心。该方法根据线性映射哈希函数将已按相似性距离矩阵排序的序列映射到索引,以揭示值周围的差距,从而识别出不同聚类的最佳截断点。在使用密切相关序列(Nocardia 物种的 16S rRNA 基因序列)和高度可变序列(Enterovirus 71 的 VP1 基因组区域)的数据集进行评估时,该方法优于现有的无监督机器学习聚类方法和降维方法。该方法不需要先验知识来确定聚类数量或聚类间距离,能处理不同大小和形状的聚类,并且与数据集呈线性比例尺度。使用线性映射哈希函数结合 MSA 的基因序列聚类是一种计算效率高的方式,可用于评估相似性、聚类不同微生物基因组、识别参考序列,以及研究细菌和病毒的进化。