FoldToken: 通过向量量化及更多方式学习蛋白质语言
本研究提出了一种名为Fold2Seq的基于转换器的生成框架,以设计新的蛋白质序列并获得所需的三维拓扑折叠形态,结果表明Fold2Seq相比现有的最先进方法在速度、覆盖率及可靠性方面具有改进或类似的表现,进一步的应用表明Fold2Seq具有优于人工设计和物理学方法的独特优势。
Jun, 2021
本文提出了一种基于上下文特征的三角函数编码器和旋转平移等变解码器,能够在随机初始化的基础上迭代地将蛋白质序列和结构转化为所需状态,从而设计高保真度的蛋白质的新方法。实验结果表明,该方法在多项任务上均优于现有基线算法,而且比基于抽样的方法更快且可靠。
Oct, 2022
提出了Seq2Direct编码器和Direct2Seq解码器,用于生成具有约束条件的氨基酸序列。DiffSDS模型使用了Seq2Direct和Direct2Seq,采用ADS来构建一个强大的蛋白质生成模型,具有更高的性能。
Jan, 2023
该研究总结了在蛋白质研究中使用语言模型的应用,包括设计新型人工蛋白质、使用非Transformer结构以及应用于定向进化方面。这些成果已经快速提升了蛋白质研究的发展和性能。
May, 2023
给定3D结构信息,我们提出了一种经过精调的逆折叠模型,专门针对抗体结构进行优化,在抗体中的序列恢复和结构鲁棒性方面超越通用蛋白质模型,尤其在高变性CDR-H3环上改进显著。我们研究了互补决定区的规范构象,发现将这些环编码到已知簇中的方法有所改进。最后,我们考虑了我们模型在药物发现和结合物设计方面的应用,并利用基于物理的方法评估了所提出序列的质量。
Oct, 2023
通过创新的预训练框架,提出了一个统一的蛋白质语言模型xTrimoPGLM,能够同时处理蛋白质理解和生成任务,拥有超过1000亿个参数和1万亿个训练标记的前所未有的规模。在18个蛋白质理解基准测试中,xTrimoPGLM明显优于其他先进基准,能够提供蛋白质结构的原子分辨率视图,并超越现有基于语言模型的工具的3D结构预测能力。此外,xTrimoPGLM不仅可以根据自然原理生成全新的蛋白质序列,还可以在有监督的精调后进行可编程的生成。这些结果凸显了xTrimoPGLM在理解和生成蛋白质序列方面的重大能力和多功能性,在蛋白质科学基础模型的发展中具有重要意义。
Jan, 2024
利用蛋白质结构数据提升蛋白质语言模型的新框架,通过整合结构信息和结构提取模块,优化了预训练语言模型的自注意机制,此框架在蛋白质功能预测上表现优越,为蛋白质建模提供更有效和高效的方法。
Jan, 2024
利用氨基酸序列的丰富生物归纳偏差,FoldFlow-2是一种新颖的序列条件的SE(3)-等变流匹配模型,用于蛋白质结构生成,并通过在一个比以前的PDB数据集大一个数量级的新数据集上进行规模训练,改进了无条件生成的设计能力、多样性和新颖性,同时在平衡构象抽样任务上具有泛化性能。
May, 2024
我们提出了FoldToken2方法,将等价结构转化为离散标记,同时保持原始结构的可恢复性,并在蛋白质结构重构任务中展示了它相对于FoldToken1的改进,提高了TMScore20%和RMSD81%。我们相信,FoldToken2将在蛋白质结构表征学习、结构对齐和结构生成等任务中激发进一步的改进。
Jun, 2024