Oct, 2023

DNA 序列生成的潜在扩散模型

TL;DR通过深度生成模型,特别是深度扩散模型,来合成 DNA 序列在合成生物学领域开辟了新的前景。我们提出了一种新颖的潜在扩散模型 (DiscDiff),通过将离散 DNA 序列嵌入连续的潜在空间,使用自编码器来利用连续扩散模型强大的生成能力生成离散数据。此外,我们引入了一种新的度量标准 Frechet Reconstruction Distance (FReD),用于衡量 DNA 序列生成结果的样本质量。我们的 DiscDiff 模型能够生成与真实 DNA 序列在 Motif 分布、潜在嵌入分布 (FReD) 和染色质剖面方面紧密相符的合成 DNA 序列。此外,我们还贡献了一个包含 15 个物种的 15 万个唯一启动子 - 基因序列的全面跨物种数据集,为未来基因组学中的生成建模工作提供丰富的资源。我们将在发表后公开我们的代码。