DiffSDS：一种适用于受几何条件和约束影响的蛋白质主链填补的语言扩散模型

Jan, 2023

DiffSDS：一种适用于受几何条件和约束影响的蛋白质主链填补的语言扩散模型

DiffSDS: A language diffusion model for protein backbone inpainting under geometric conditions and constraints

Zhangyang Gao, Cheng Tan, Stan Z. Li

TL;DR提出了Seq2Direct编码器和Direct2Seq解码器，用于生成具有约束条件的氨基酸序列。DiffSDS模型使用了Seq2Direct和Direct2Seq，采用ADS来构建一个强大的蛋白质生成模型，具有更高的性能。

Abstract

Have you ever been troubled by the complexity and computational cost of SE(3) protein structure modeling and been amazed by the simplicity and power of language modeling? Recent work has shown promise in simplify

发现论文，激发创造

通过蛋白质折叠扩散生成蛋白结构

本研究介绍了一种新的基于扩散的生成模型，通过模拟蛋白质的折叠过程，使用一系列连续角度来生成新的蛋白质骨架结构，通过简单的transformer骨干训练出高质量的蛋白质结构，并开源了对应的代码库和训练模型。

Sep, 2022

轻量级对比蛋白质结构序列变换

本文提出了一种用于蛋白质结构表示预训练的新型无监督方法，该方法利用现有的预训练语言模型通过无监督的对比对齐指导结构模型的学习，并提出了一种自监督的结构约束来进一步学习结构的内部信息。实验结果表明，该方法的性能在多个任务和特定数据集上均表现出卓越的优越性。

Mar, 2023

DiffPack: 自回归蛋白质侧链填充的扭转扩散模型

DiffPack是一种扭转扩散模型，可以通过对扭曲空间进行扩散和去噪来学习侧链的扭曲角度联合分布，从而实现精确预测蛋白质侧链构象。该方法在多项基准测试中均取得可观的进展，在CASP13和CASP14上的角度精度分别提高了11.9％和13.5％，模型尺寸显著更小。

Jun, 2023

逆蛋白质折叠的图形去噪扩散

提出了一种新颖的图去噪扩散模型，使用氨基酸替代矩阵对扩散过程进行编码，并在多种基准方法中实现了最先进的序列恢复性能，为特定的蛋白质骨架结构生成多样性的蛋白序列具有极大的潜力。

Jun, 2023

xTrimoPGLM: 语言解码的统一百亿级预训练变压器

通过创新的预训练框架，提出了一个统一的蛋白质语言模型xTrimoPGLM，能够同时处理蛋白质理解和生成任务，拥有超过1000亿个参数和1万亿个训练标记的前所未有的规模。在18个蛋白质理解基准测试中，xTrimoPGLM明显优于其他先进基准，能够提供蛋白质结构的原子分辨率视图，并超越现有基于语言模型的工具的3D结构预测能力。此外，xTrimoPGLM不仅可以根据自然原理生成全新的蛋白质序列，还可以在有监督的精调后进行可编程的生成。这些结果凸显了xTrimoPGLM在理解和生成蛋白质序列方面的重大能力和多功能性，在蛋白质科学基础模型的发展中具有重要意义。

Jan, 2024

赋予蛋白质语言模型结构知识

利用蛋白质结构数据提升蛋白质语言模型的新框架，通过整合结构信息和结构提取模块，优化了预训练语言模型的自注意机制，此框架在蛋白质功能预测上表现优越，为蛋白质建模提供更有效和高效的方法。

Jan, 2024

扩散语言模型是多功能的蛋白质学习器

该研究介绍了扩散蛋白质语言模型（DPLM），一种多功能的蛋白质语言模型，展示了对蛋白质序列具有强大的生成和预测能力。通过生成自监督离散扩散概率框架对进化规模的蛋白质序列进行可扩展的DPLM预训练，使DPLM展现出无条件生成结构合理、新颖且多样的蛋白质序列的能力。此外，DPLM通过生成预训练使得其对蛋白质具有更好的理解，成为一种优秀的表示学习器，可以根据不同的预测任务进行微调，与ESM2（Lin et al.，2022）相比具有较好的效果。此外，DPLM可以根据需求进行定制，通过几种方式展示其条件生成的能力：（1）以部分肽段序列为条件，例如高成功率生成功能基序的脚手架；（2）以其他模态为条件，例如结构条件生成逆折叠；以及（3）通过插入式分类器指导将序列生成导向所需的属性，例如满足指定的二级结构。

Feb, 2024

利用语言模型嵌入进行蛋白质序列生成的扩散

利用连续扩散和蛋白质语言模型ESM-2推导的嵌入，在无条件生成方面超越了当前的解决方案，进一步评估了生成的蛋白质序列的质量、多样性、分布相似性和生物相关性，并提供了一个可扩展且高质量的蛋白质序列生成框架，从而推动了蛋白质设计领域的发展。

Mar, 2024

FoldToken: 通过向量量化及更多方式学习蛋白质语言

通过引入FoldTokenizer和SoftCVQ等创新性方法，本研究在蛋白质序列-结构描述方面取得了突破性进展，将蛋白质序列与结构转化成统一的模态，构建了首个用于序列-结构共同生成的GPT风格模型FoldGPT，并在蛋白质背骨填充和抗体设计任务中取得了有希望的结果。

Feb, 2024

FoldToken2：学习紧凑、不变和生成蛋白质结构语言

我们提出了FoldToken2方法，将等价结构转化为离散标记，同时保持原始结构的可恢复性，并在蛋白质结构重构任务中展示了它相对于FoldToken1的改进，提高了TMScore20%和RMSD81%。我们相信，FoldToken2将在蛋白质结构表征学习、结构对齐和结构生成等任务中激发进一步的改进。

Jun, 2024