利用语言模型嵌入进行蛋白质序列生成的扩散

Mar, 2024

利用语言模型嵌入进行蛋白质序列生成的扩散

Diffusion on language model embeddings for protein sequence generation

Viacheslav Meshchaninov, Pavel Strashnov, Andrey Shevtsov, Fedor Nikolaev, Nikita Ivanisenko...

TL;DR利用连续扩散和蛋白质语言模型 ESM-2 推导的嵌入，在无条件生成方面超越了当前的解决方案，进一步评估了生成的蛋白质序列的质量、多样性、分布相似性和生物相关性，并提供了一个可扩展且高质量的蛋白质序列生成框架，从而推动了蛋白质设计领域的发展。

Abstract

protein design requires a deep understanding of the inherent complexities of the protein universe. While many efforts lean towards conditional generation or focus on specific families of proteins, the foundational task of unconditional generation remains underexplored and undervalued.

protein design unconditional generation dima protein language model protein sequence generation

发现论文，激发创造

扩散语言模型是多功能的蛋白质学习器

该研究介绍了扩散蛋白质语言模型（DPLM），一种多功能的蛋白质语言模型，展示了对蛋白质序列具有强大的生成和预测能力。通过生成自监督离散扩散概率框架对进化规模的蛋白质序列进行可扩展的 DPLM 预训练，使 DPLM 展现出无条件生成结构合理、新颖且多样的蛋白质序列的能力。此外，DPLM 通过生成预训练使得其对蛋白质具有更好的理解，成为一种优秀的表示学习器，可以根据不同的预测任务进行微调，与 ESM2（Lin et al.，2022）相比具有较好的效果。此外，DPLM 可以根据需求进行定制，通过几种方式展示其条件生成的能力：（1）以部分肽段序列为条件，例如高成功率生成功能基序的脚手架；（2）以其他模态为条件，例如结构条件生成逆折叠；以及（3）通过插入式分类器指导将序列生成导向所需的属性，例如满足指定的二级结构。

Feb, 2024

蛋白质结构生成的潜扩散模型

本研究提出了一种潜在的扩散模型，该模型可以在凝聚的潜在空间中灵活捕捉天然蛋白质结构的分布，从而通过等变蛋白自编码器生成高可设计性和高效率的新型蛋白质骨架结构。

May, 2023

DNA 序列生成的潜在扩散模型

通过深度生成模型，特别是深度扩散模型，来合成 DNA 序列在合成生物学领域开辟了新的前景。我们提出了一种新颖的潜在扩散模型 (DiscDiff)，通过将离散 DNA 序列嵌入连续的潜在空间，使用自编码器来利用连续扩散模型强大的生成能力生成离散数据。此外，我们引入了一种新的度量标准 Frechet Reconstruction Distance (FReD)，用于衡量 DNA 序列生成结果的样本质量。我们的 DiscDiff 模型能够生成与真实 DNA 序列在 Motif 分布、潜在嵌入分布 (FReD) 和染色质剖面方面紧密相符的合成 DNA 序列。此外，我们还贡献了一个包含 15 个物种的 15 万个唯一启动子 - 基因序列的全面跨物种数据集，为未来基因组学中的生成建模工作提供丰富的资源。我们将在发表后公开我们的代码。

Oct, 2023

文本生成的自条件嵌入扩散

本研究提出了自条件嵌入扩散 (Self-conditioned Embedding Diffusion)，这是一种在令牌嵌入上运行的连续扩散机制，可以学习灵活和可扩展的扩散模型，用于条件和非条件文本生成。通过定性和定量评估，我们表明，我们的文本扩散模型生成的样本与标准自回归语言模型生成的样本相当，而在推断时间上在加速器硬件上更为高效。该研究为在文本方面扩大扩散模型的规模，类似于自回归模型，并通过对连续扩散的最新改进来提高性能铺平了道路。

Nov, 2022

DiscDiff：用于 DNA 序列生成的潜在扩散模型

该论文引入了一种用于 DNA 序列生成的新型框架，包括 DiscDiff，一种专门用于生成离散 DNA 序列的潜在扩散模型（LDM），和 Absorb-Escape，一种后期训练算法，用于优化这些序列。Absorb-Escape 通过纠正潜在和输入空间之间转换过程中固有的 ' 舍入误差 ' 来增强生成序列的真实性。我们的方法不仅在 DNA 序列生成方面树立了新的标准，而且在生成短 DNA 序列和长 DNA 序列方面表现出了优越性能。此外，我们还推出了 EPD-GenDNA，这是第一个综合性的多物种 DNA 生成数据集，包含来自 15 种物种的 160,000 个独特序列。我们希望这项研究能推动 DNA 的生成建模，对基因治疗和蛋白质生产可能产生影响。

Feb, 2024

DiffuSeq：使用扩散模型进行序列到序列的文本生成

通过使用 DiffuSeq，我们设计了一种扩散模型，可用于序列到序列文本生成任务，具有与预训练语言模型等六种基线相比甚至更好的性能和高多样性。我们还包括理论分析，揭示 DiffuSeq 和自回归 / 非自回归模型之间的连接，并展示了扩散模型在复杂条件语言生成任务中的巨大潜力。

Oct, 2022

使用等变去噪扩散概率模型生成蛋白质结构与序列

本文引入了一种生成模型，旨在设计具有特定 3D 结构和化学性质的蛋白质，以实现特定的功能。通过实验数据全面学习，该模型可生成全原子骨架构象以及序列和侧链预测，实现了分子生成建模方法的显著扩大。

May, 2022

ProtTrans：通过自监督深度学习与高性能计算攻克生命密码的语言

通过训练两个自回归模型和四个自编码器模型，使用生物信息数据培训出来的语言模型（Language Models）能够在低推断开销下完成新的前沿预测，例如使用蛋白 LM - 嵌入 (ProtT5) 能够在无需使用进化信息的情况下，成功地进行氨基酸序列每残基预测，并出现在这个 https URL。

Jul, 2020

语言生成的潜在扩散

该研究论文讨论了扩散模型在离散领域（如语言）的应用，提出将扩散模型作为基于预训练语言模型的生成算法的辅助方法，并通过在预训练的编码器 - 解码器模型的潜在空间中学习连续的潜在扩散模型，演示了其在从数据分布中生成文本方面的有效性。最终提出的潜在扩散模型不仅在生成新颖文本方面优于强有力的自回归基线，还支持可控的生成。

Dec, 2022

DiM: 高效高分辨率图像合成的扩散灰曼巴

提出了一种结合了 Mamba 和扩散模型的高效高分辨率图像合成方法 DiM，使用 ``weak-to-strong'' 训练策略和无需进一步微调的上采样策略提高训练和推理效率。

May, 2024