ICMLMay, 2024

VQDNA: 多物种基因组序列建模的向量量化能力释放

TL;DR引入了 VQDNA,一个从基因词汇学习的角度改进基因标记化的通用框架;通过利用可学习的词汇的向量量化码书,VQDNA 可以自适应地将基因标记化为具有模式感知的嵌入结果;通过在层次结构中设计不同尺度的码书,提出了层次残差量化方法(HRQ)。在 32 个基因数据集上的广泛实验表明,与现有的基因语言模型相比,VQDNA 具有卓越的性能和有利的参数效率。值得注意的是,对 SARS-CoV-2 突变的经验分析揭示了学习 HRQ 词汇的细粒度模式感知和生物学意义,突显了其在基因组学中更广泛应用的潜力。