FoldToken: 通过向量量化及更多方式学习蛋白质语言

Feb, 2024

FoldToken: 通过向量量化及更多方式学习蛋白质语言

FoldToken: Learning Protein Language via Vector Quantization and Beyond

Zhangyang Gao, Cheng Tan, Jue Wang, Yufei Huang, Lirong Wu...

TL;DR通过引入FoldTokenizer和SoftCVQ等创新性方法，本研究在蛋白质序列-结构描述方面取得了突破性进展，将蛋白质序列与结构转化成统一的模态，构建了首个用于序列-结构共同生成的GPT风格模型FoldGPT，并在蛋白质背骨填充和抗体设计任务中取得了有希望的结果。

Abstract

Is there a foreign language describing protein sequences and structures simultaneously? Protein structures, represented by continuous 3D points, have long posed a challenge due to the contrasting modeling paradigms of discrete sequences. We introduce \textbf{foldtokenizer} to represent

发现论文，激发创造

Fold2Seq:一种基于序列（1D）-折叠（3D）嵌入的蛋白设计生成模型

本研究提出了一种名为Fold2Seq的基于转换器的生成框架，以设计新的蛋白质序列并获得所需的三维拓扑折叠形态，结果表明Fold2Seq相比现有的最先进方法在速度、覆盖率及可靠性方面具有改进或类似的表现，进一步的应用表明Fold2Seq具有优于人工设计和物理学方法的独特优势。

Jun, 2021

使用等变平移技术进行蛋白质序列和结构联合设计

本文提出了一种基于上下文特征的三角函数编码器和旋转平移等变解码器，能够在随机初始化的基础上迭代地将蛋白质序列和结构转化为所需状态，从而设计高保真度的蛋白质的新方法。实验结果表明，该方法在多项任务上均优于现有基线算法，而且比基于抽样的方法更快且可靠。

Oct, 2022

DiffSDS：一种适用于受几何条件和约束影响的蛋白质主链填补的语言扩散模型

提出了Seq2Direct编码器和Direct2Seq解码器，用于生成具有约束条件的氨基酸序列。DiffSDS模型使用了Seq2Direct和Direct2Seq，采用ADS来构建一个强大的蛋白质生成模型，具有更高的性能。

Jan, 2023

利用全局生成模型探索蛋白质序列空间

该研究总结了在蛋白质研究中使用语言模型的应用，包括设计新型人工蛋白质、使用非Transformer结构以及应用于定向进化方面。这些成果已经快速提升了蛋白质研究的发展和性能。

May, 2023

使用深度贝叶斯优化进行蛋白质反折叠

使用深度贝叶斯优化来优化难以预测蛋白质序列的反折叠问题，并可应用于其他有约束的情况，能在减少计算资源的情况下产生具有大大降低结构误差的蛋白质序列。

May, 2023

利用深度学习进行抗体序列设计的逆折叠

给定3D结构信息，我们提出了一种经过精调的逆折叠模型，专门针对抗体结构进行优化，在抗体中的序列恢复和结构鲁棒性方面超越通用蛋白质模型，尤其在高变性CDR-H3环上改进显著。我们研究了互补决定区的规范构象，发现将这些环编码到已知簇中的方法有所改进。最后，我们考虑了我们模型在药物发现和结合物设计方面的应用，并利用基于物理的方法评估了所提出序列的质量。

Oct, 2023

xTrimoPGLM: 语言解码的统一百亿级预训练变压器

通过创新的预训练框架，提出了一个统一的蛋白质语言模型xTrimoPGLM，能够同时处理蛋白质理解和生成任务，拥有超过1000亿个参数和1万亿个训练标记的前所未有的规模。在18个蛋白质理解基准测试中，xTrimoPGLM明显优于其他先进基准，能够提供蛋白质结构的原子分辨率视图，并超越现有基于语言模型的工具的3D结构预测能力。此外，xTrimoPGLM不仅可以根据自然原理生成全新的蛋白质序列，还可以在有监督的精调后进行可编程的生成。这些结果凸显了xTrimoPGLM在理解和生成蛋白质序列方面的重大能力和多功能性，在蛋白质科学基础模型的发展中具有重要意义。

Jan, 2024

赋予蛋白质语言模型结构知识

利用蛋白质结构数据提升蛋白质语言模型的新框架，通过整合结构信息和结构提取模块，优化了预训练语言模型的自注意机制，此框架在蛋白质功能预测上表现优越，为蛋白质建模提供更有效和高效的方法。

Jan, 2024

基于序列扩增的SE(3)-流匹配用于条件蛋白质背骨生成

利用氨基酸序列的丰富生物归纳偏差，FoldFlow-2是一种新颖的序列条件的SE(3)-等变流匹配模型，用于蛋白质结构生成，并通过在一个比以前的PDB数据集大一个数量级的新数据集上进行规模训练，改进了无条件生成的设计能力、多样性和新颖性，同时在平衡构象抽样任务上具有泛化性能。

May, 2024

FoldToken2：学习紧凑、不变和生成蛋白质结构语言

我们提出了FoldToken2方法，将等价结构转化为离散标记，同时保持原始结构的可恢复性，并在蛋白质结构重构任务中展示了它相对于FoldToken1的改进，提高了TMScore20%和RMSD81%。我们相信，FoldToken2将在蛋白质结构表征学习、结构对齐和结构生成等任务中激发进一步的改进。

Jun, 2024