改进分子序列分析的通用非参数方法
我们提出了一种基于压缩的聚类方法,使用基于长度压缩数据文件的普适相似性距离(NCD)来构建层级聚类,可以成功地应用于基因组学,病毒学,语言学,文学,音乐,手写数字,天文学以及完全不同域的对象长度压缩数据文件,并且在不同的压缩方式下具有普遍性和强韧性。
Dec, 2003
提出了一种基于 Kolmogorov 复杂性的新的 “归一化信息距离” 度量方法,证明它是度量,称之为 “相似度量”,并演示了两个应用:比较整个线粒体基因组并推断它们的进化历史以及完全自动计算 52 种不同语言的语言树。
Nov, 2001
本文提出了一种基于随机投影的低维嵌入方法,可以快速高效地计算不同形式的生物序列,从而避免了核方法的计算时间、内存使用和泛化性挑战。该方法的预测性能在多种真实分类任务中优于若干最先进的嵌入和核方法
Apr, 2023
本研究探讨了将离散域中的 Lempel-Ziv Jaccard Distance 扩展至连续域中的效果,并提出了基于深度学习的算法 Lempel-Ziv Network。通过在几个数据集和序列处理任务上的实验,证明了 LSTM 在这些任务上具有较高性能表现。此次研究的贡献是针对新型研究领域中子基础线调整问题给出了属于自己的解释。
Nov, 2022
该研究开发了一种方法来识别不同敏感性水平下的聚类中心和最佳聚类数量,并可以在不同的序列数据集上同样有效地工作。该方法结合了线性映射哈希函数和多序列比对(MSA),利用已由 MSA 输出排序相似性的序列,识别了能表示不同物种参考基因凭证的最佳聚类数量、聚类截断点和聚类中心。该方法根据线性映射哈希函数将已按相似性距离矩阵排序的序列映射到索引,以揭示值周围的差距,从而识别出不同聚类的最佳截断点。在使用密切相关序列(Nocardia 物种的 16S rRNA 基因序列)和高度可变序列(Enterovirus 71 的 VP1 基因组区域)的数据集进行评估时,该方法优于现有的无监督机器学习聚类方法和降维方法。该方法不需要先验知识来确定聚类数量或聚类间距离,能处理不同大小和形状的聚类,并且与数据集呈线性比例尺度。使用线性映射哈希函数结合 MSA 的基因序列聚类是一种计算效率高的方式,可用于评估相似性、聚类不同微生物基因组、识别参考序列,以及研究细菌和病毒的进化。
Nov, 2023
通过基因的有组织数值表示,可以更高效地对序列进行聚类,并通过编码条形码和 cDNA 序列的序列嵌入方法和欧氏空间向量接近算法来改善相似性搜索的时间复杂性。
Aug, 2023
我们介绍了一种用于复杂关联性分析的新型基于核的神经网络测试方法,通过模拟实验证明了该方法在序列数据分析中的效果优于序列核关联性测试(SKAT),特别是在存在非线性和交互作用效应的情况下。我们还将该方法应用于全基因组测序(WGS)数据集,研究与海马体积随时间变化相关联的新基因。
Dec, 2023
该论文介绍了一种针对深度学习模型通信瓶颈问题的新颖压缩技术 —— 自然压缩,该技术应用于所有更新向量的条目,并通过四舍五入到最近的 2 的负或正次幂的方式进行处理,从而在保证模型收敛速度不变的情况下,节省了通信成本,从而减少了训练整体运行时间。
May, 2019