改进分子序列分析的通用非参数方法

KDDFeb, 2024

改进分子序列分析的通用非参数方法

A Universal Non-Parametric Approach For Improved Molecular Sequence Analysis

Sarwan Ali, Tamkanat E Ali, Prakash Chourasia, Murray Patterson

TL;DR在生物研究领域，我们提出了一种基于压缩模型的新方法，通过使用压缩算法和标准化压缩距离来进行分子序列分类，避免了依赖手工特征或预训练模型，提供了一种高效且有效的分析分子序列的方法。

Abstract

In the field of biological research, it is essential to comprehend the characteristics and functions of molecular sequences. The classification of molecular sequences has seen widespread use of →

molecular sequences neural network-based techniques compression-based model normalized compression distance kernel principal component analysis

发现论文，激发创造

压缩聚类

我们提出了一种基于压缩的聚类方法，使用基于长度压缩数据文件的普适相似性距离（NCD）来构建层级聚类，可以成功地应用于基因组学，病毒学，语言学，文学，音乐，手写数字，天文学以及完全不同域的对象长度压缩数据文件，并且在不同的压缩方式下具有普遍性和强韧性。

Dec, 2003

DNA 序列压缩分类

通过压缩算法为基础的新的分类方法在 DNA 序列分析中表现出高准确性和更高效的特点，为基因组研究和应用领域带来了潜在的进展。

Jan, 2024

相似度度量

提出了一种基于 Kolmogorov 复杂性的新的 “归一化信息距离” 度量方法，证明它是度量，称之为 “相似度量”，并演示了两个应用：比较整个线粒体基因组并推断它们的进化历史以及完全自动计算 52 种不同语言的语言树。

Nov, 2001

BioSequence2Vec: 生物序列嵌入生成的高效算法

本文提出了一种基于随机投影的低维嵌入方法，可以快速高效地计算不同形式的生物序列，从而避免了核方法的计算时间、内存使用和泛化性挑战。该方法的预测性能在多种真实分类任务中优于若干最先进的嵌入和核方法

Apr, 2023

Lempel-Ziv 网络

本研究探讨了将离散域中的 Lempel-Ziv Jaccard Distance 扩展至连续域中的效果，并提出了基于深度学习的算法 Lempel-Ziv Network。通过在几个数据集和序列处理任务上的实验，证明了 LSTM 在这些任务上具有较高性能表现。此次研究的贡献是针对新型研究领域中子基础线调整问题给出了属于自己的解释。

Nov, 2022

基因序列聚类和多序列比对中参考序列的线性归一化哈希函数

该研究开发了一种方法来识别不同敏感性水平下的聚类中心和最佳聚类数量，并可以在不同的序列数据集上同样有效地工作。该方法结合了线性映射哈希函数和多序列比对（MSA），利用已由 MSA 输出排序相似性的序列，识别了能表示不同物种参考基因凭证的最佳聚类数量、聚类截断点和聚类中心。该方法根据线性映射哈希函数将已按相似性距离矩阵排序的序列映射到索引，以揭示值周围的差距，从而识别出不同聚类的最佳截断点。在使用密切相关序列（Nocardia 物种的 16S rRNA 基因序列）和高度可变序列（Enterovirus 71 的 VP1 基因组区域）的数据集进行评估时，该方法优于现有的无监督机器学习聚类方法和降维方法。该方法不需要先验知识来确定聚类数量或聚类间距离，能处理不同大小和形状的聚类，并且与数据集呈线性比例尺度。使用线性映射哈希函数结合 MSA 的基因序列聚类是一种计算效率高的方式，可用于评估相似性、聚类不同微生物基因组、识别参考序列，以及研究细菌和病毒的进化。

Nov, 2023

通过序列相似性和上下文进行改进的矢量嵌入：用于 cDNA 图书馆的压缩、相似性搜索、聚类、组织和操作

通过基因的有组织数值表示，可以更高效地对序列进行聚类，并通过编码条形码和 cDNA 序列的序列嵌入方法和欧氏空间向量接近算法来改善相似性搜索的时间复杂性。

Aug, 2023

高维测序数据分析的基于核的神经网络检验

我们介绍了一种用于复杂关联性分析的新型基于核的神经网络测试方法，通过模拟实验证明了该方法在序列数据分析中的效果优于序列核关联性测试（SKAT），特别是在存在非线性和交互作用效应的情况下。我们还将该方法应用于全基因组测序（WGS）数据集，研究与海马体积随时间变化相关联的新基因。

Dec, 2023

分布式深度学习的自然压缩

该论文介绍了一种针对深度学习模型通信瓶颈问题的新颖压缩技术 —— 自然压缩，该技术应用于所有更新向量的条目，并通过四舍五入到最近的 2 的负或正次幂的方式进行处理，从而在保证模型收敛速度不变的情况下，节省了通信成本，从而减少了训练整体运行时间。

May, 2019

利用无损压缩算法进行多光谱时间序列的低资源作物分类

基于符号表示和多尺度归一化压缩距离的非训练框架在作物分类中具有高性能和鲁棒性，适用于真实世界的农田调查。

May, 2024