Feb, 2024

DiscDiff:用于 DNA 序列生成的潜在扩散模型

TL;DR该论文引入了一种用于 DNA 序列生成的新型框架,包括 DiscDiff,一种专门用于生成离散 DNA 序列的潜在扩散模型(LDM),和 Absorb-Escape,一种后期训练算法,用于优化这些序列。Absorb-Escape 通过纠正潜在和输入空间之间转换过程中固有的 ' 舍入误差 ' 来增强生成序列的真实性。我们的方法不仅在 DNA 序列生成方面树立了新的标准,而且在生成短 DNA 序列和长 DNA 序列方面表现出了优越性能。此外,我们还推出了 EPD-GenDNA,这是第一个综合性的多物种 DNA 生成数据集,包含来自 15 种物种的 160,000 个独特序列。我们希望这项研究能推动 DNA 的生成建模,对基因治疗和蛋白质生产可能产生影响。