蛋白质结构生成的潜扩散模型
本研究介绍了一种新的基于扩散的生成模型,通过模拟蛋白质的折叠过程,使用一系列连续角度来生成新的蛋白质骨架结构,通过简单的 transformer 骨干训练出高质量的蛋白质结构,并开源了对应的代码库和训练模型。
Sep, 2022
本文引入了一种生成模型,旨在设计具有特定 3D 结构和化学性质的蛋白质,以实现特定的功能。通过实验数据全面学习,该模型可生成全原子骨架构象以及序列和侧链预测,实现了分子生成建模方法的显著扩大。
May, 2022
本文提出了一种基于上下文特征的三角函数编码器和旋转平移等变解码器,能够在随机初始化的基础上迭代地将蛋白质序列和结构转化为所需状态,从而设计高保真度的蛋白质的新方法。实验结果表明,该方法在多项任务上均优于现有基线算法,而且比基于抽样的方法更快且可靠。
Oct, 2022
提出了一种新颖的图去噪扩散模型,使用氨基酸替代矩阵对扩散过程进行编码,并在多种基准方法中实现了最先进的序列恢复性能,为特定的蛋白质骨架结构生成多样性的蛋白序列具有极大的潜力。
Jun, 2023
通过深度生成模型,特别是深度扩散模型,来合成 DNA 序列在合成生物学领域开辟了新的前景。我们提出了一种新颖的潜在扩散模型 (DiscDiff),通过将离散 DNA 序列嵌入连续的潜在空间,使用自编码器来利用连续扩散模型强大的生成能力生成离散数据。此外,我们引入了一种新的度量标准 Frechet Reconstruction Distance (FReD),用于衡量 DNA 序列生成结果的样本质量。我们的 DiscDiff 模型能够生成与真实 DNA 序列在 Motif 分布、潜在嵌入分布 (FReD) 和染色质剖面方面紧密相符的合成 DNA 序列。此外,我们还贡献了一个包含 15 个物种的 15 万个唯一启动子 - 基因序列的全面跨物种数据集,为未来基因组学中的生成建模工作提供丰富的资源。我们将在发表后公开我们的代码。
Oct, 2023
利用 E (3)- 等变图神经网络学习分布并通过 SMCDiff 有效地从大量的蛋白质背骨结构中对指定基序进行条件采样构造支架结构,可在保证结构多样性的情况下采样长达 80 个氨基酸残基长度的支架,同时对于固定的基序可获得多样性的构架结构。
Jun, 2022
使用 EigenFold 这种扩散生成建模框架,以从给定蛋白质序列中生成结构的分布,更全面地了解模型不确定性,并评估 EigenFold 对于建模和预测折叠转换蛋白质和配体诱导构象变化的能力,该方法在最近的 CAMEO 目标中实现了中位 TMScore 为 0.84,可以更好地捕捉构象情况下的生物学功能。
Apr, 2023
利用基于蛋白质为环境约束的扩散模型,在非自回归的完整原子水平上,去噪元素类型和整个分子的三维坐标,学习生成过程,相较其他方法具有更高的相似性和更适当的分子大小以及其他药物性质。
Nov, 2022