DNA 序列压缩分类

Jan, 2024

DNA Sequence Classification with Compressors

Şükrü Ozan

TL;DR通过压缩算法为基础的新的分类方法在 DNA 序列分析中表现出高准确性和更高效的特点，为基因组研究和应用领域带来了潜在的进展。

Abstract

Recent studies in dna sequence classification have leveraged sophisticated machine learning techniques, achieving notable accuracy in categorizing complex →

dna sequence classification machine learning techniques compressor-based method genomic data efficiency

发现论文，激发创造

改进分子序列分析的通用非参数方法

在生物研究领域，我们提出了一种基于压缩模型的新方法，通过使用压缩算法和标准化压缩距离来进行分子序列分类，避免了依赖手工特征或预训练模型，提供了一种高效且有效的分析分子序列的方法。

Feb, 2024

基因组学中的经典到量子序列编码

本文介绍了在生物信息学中使用多种数学领域的算法进行古典到量子数据编码的新颖方法，其中包括无损压缩、小波编码和信息熵技术，并提出了基于量子玻尔兹曼机的 DNA 序列编码测试方法，为量子计算在生物信息学中的发展提供了新的思路和应用。

Apr, 2023

Gzip 用于二进制图像分类的强归纳偏差

在计算机视觉中，深度学习网络已成为行业和研究领域的事实标准；然而，在自然语言处理领域的最新发展表明，在一些领域中，具有强归纳偏差的无参数模型可以作为计算成本更低、更简单的替代选择。我们提出了一种用于二进制图像分类的模型：最近邻分类器与通用压缩工具 Gzip 相结合。我们对其进行测试并与 Resnet、EfficientNet 和 Mobilenet 等流行的深度学习网络进行比较，结果显示其在 few-shot 情景下能够实现更高的准确性并且利用的空间显著减少，达到了数量级的差异。因此，我们认为这突显了在 few-shot 情景中具有更强归纳偏差的模型的潜力。

Jan, 2024

DNA 序列的无监督表示学习

本文利用一种序列到序列自编码器模型以无监督的方式学习长度可变的 DNA 序列的固定维度的潜在表示，并在监督学习的拼接位点分类任务中进行了定量和定性评估。实验表明，此类表示法可用作通常相关的任务中的特征或先验，并且采用的模型归因技术获得的序列特征对分类精度有显著影响。

Jun, 2019

基於隱式神經網絡的 DNA 數據存儲的多描述方法

我们研究了 DNA 数据存储的新的压缩方案和利用神经网络进行多重描述编码的前沿技术，通过实验结果证明，我们的解决方案在 DNA 数据存储领域中与最新研究方法相媲美，具有更高的压缩率和更强的噪声鲁棒性。

Sep, 2023

Lempel-Ziv 网络

本研究探讨了将离散域中的 Lempel-Ziv Jaccard Distance 扩展至连续域中的效果，并提出了基于深度学习的算法 Lempel-Ziv Network。通过在几个数据集和序列处理任务上的实验，证明了 LSTM 在这些任务上具有较高性能表现。此次研究的贡献是针对新型研究领域中子基础线调整问题给出了属于自己的解释。

Nov, 2022

Gzip 与词袋模型在 KNN 文本分类中的对比

压缩距离的有效性在基于 KNN 的文本分类（gzip）中最近引起了很多关注。在这篇论文中，我们展示了使用更简单的方法可能可以实现类似或更好的效果，而文本压缩可能并不是必要的。实际上，我们发现简单的词袋匹配可以实现类似或更好的准确性，并且更高效。

Jul, 2023

通过序列相似性和上下文进行改进的矢量嵌入：用于 cDNA 图书馆的压缩、相似性搜索、聚类、组织和操作

通过基因的有组织数值表示，可以更高效地对序列进行聚类，并通过编码条形码和 cDNA 序列的序列嵌入方法和欧氏空间向量接近算法来改善相似性搜索的时间复杂性。

Aug, 2023

VQDNA: 多物种基因组序列建模的向量量化能力释放

引入了 VQDNA，一个从基因词汇学习的角度改进基因标记化的通用框架；通过利用可学习的词汇的向量量化码书，VQDNA 可以自适应地将基因标记化为具有模式感知的嵌入结果；通过在层次结构中设计不同尺度的码书，提出了层次残差量化方法（HRQ）。在 32 个基因数据集上的广泛实验表明，与现有的基因语言模型相比，VQDNA 具有卓越的性能和有利的参数效率。值得注意的是，对 SARS-CoV-2 突变的经验分析揭示了学习 HRQ 词汇的细粒度模式感知和生物学意义，突显了其在基因组学中更广泛应用的潜力。

May, 2024

嵌入 - 搜索 - 对齐：使用 Transformer 模型进行 DNA 序列对齐

DNA-ESA 是一种新颖的编码器模型，通过产生读数和参考片段的表示，将其投影到共享向量空间，其中读段的距离用作对准的替代指标。

Sep, 2023