蛋白质结构预测的精确折叠景观的少样本学习
该研究利用语言生成模型 MSA-Augmenter 及大规模 MSA 技术,微调 AlphaFold2 蛋白质结构预测模型在缺乏同源家族数据库的情况下,生成补充性的未见过的蛋白质序列,从而提高蛋白质结构预测准确性。
Jun, 2023
使用 EigenFold 这种扩散生成建模框架,以从给定蛋白质序列中生成结构的分布,更全面地了解模型不确定性,并评估 EigenFold 对于建模和预测折叠转换蛋白质和配体诱导构象变化的能力,该方法在最近的 CAMEO 目标中实现了中位 TMScore 为 0.84,可以更好地捕捉构象情况下的生物学功能。
Apr, 2023
本文研究探讨了 ESM-1b、MSA-Transformer 和 Evoformer 等三种常用蛋白质语言模型的表征能力,重点关注 Evoformer 在蛋白功能预测方面的表现,旨在回答三个关键问题:(i)AlphaFold 中的 Evoformer 能否产生适合预测蛋白功能的表征?(ii)如果可以,Evoformer 能否取代 ESM-1b 和 MSA-Transformer?(iii)这些 PLMs 在多大程度上依赖于与进化有关的蛋白数据?在这方面,它们是否互补?通过实证研究和新的见解和结论进行比较。附有完整的代码和数据集,可供复现。
Jun, 2022
生物蛋白质的功能常依赖于动态结构集合,本研究通过开发一种基于流动的生成建模方法来学习和采样蛋白质的构象空间,利用 AlphaFold 和 ESMFold 等高精度单状态预测器进行改进,获得了名为 AlphaFlow 和 ESMFlow 的蛋白质结构的序列有条件的生成模型。在 PDB 上经过训练和评估时,我们的方法在精确性和多样性方面相比于具有 MSA 子采样的 AlphaFold 更具优势。当进一步在全原子 MD 的集合上进行训练后,我们的方法能够准确捕捉未知蛋白质的构象灵活性、位置分布和高阶集合观测量。此外,我们的方法可以使静态 PDB 结构多样化,并具有比复制的 MD 轨迹更快的收敛时间,展示了其作为昂贵的基于物理的仿真的替代品的潜力。
Feb, 2024
本研究提出了一种新的蛋白质结构预测方法 ——HelixFold-Single,它基于大规模蛋白质语言模型,将原始序列代替同源序列用于学习蛋白质序列的共同进化信息,并结合 AlphaFold2 的关键组件预测蛋白质原子的三维坐标,其在 CASP14 和 CAMEO 数据集中准确度表现良好,同时能够节省大量的计算时间。
Jul, 2022
本文提出一种少样本学习的方法来设计新的功能性蛋白质,该方法包括半监督迁移学习生成离散可行解空间和新型进化蒙特卡罗马尔可夫链采样算法更高效地探索可行解空间。我们在实验中展示了该方法设计出的高适应度基因激活剂有着比现有方法显著的命中率提升,且该方法可以轻松应用在其他蛋白质工程和设计问题中。
May, 2023
本文提出了一种新的预训练框架,它将用于蛋白质主体结构和三级结构的序列和几何分析器级联,模拟野生型蛋白质的自然选择并评估变体的效果,以指导遗传突变方向,实现所需特征,提出了一种新的变体影响预测方法,其预测结果在单点和深部变异方面表现良好。
Jun, 2023
本文探讨了基于深度学习的 AlphaFold2 方法在蛋白质三级结构预测中的优势,以及对于突变的限制。通过进化方法生成对抗性序列,只修改三个氨基酸残基就能使 AlphaFold2 预测结果相差甚远,同时,该方法也能快速识别关键的氨基酸残基和蛋白质的可能性构象,从而大大加速蛋白质结构的实验过程。
May, 2023
为了推动蛋白质的机器学习研究进展,我们介绍了一个开源数据集 OpenProteinSet,其中包含超过 1600 万个蛋白质多序列比对,与蛋白质数据库中的结构同源物和 AlphaFold2 蛋白质结构预测相对应,可广泛用于蛋白质结构、功能、设计以及大规模多模式机器学习研究的训练和验证数据。
Aug, 2023
MSAGPT 是一种新颖的方法,通过在低 MSA 水平下进行 MSA 生成预训练来促进蛋白质结构预测,其通过简单而有效的 2D 进化位置编码方案来建模复杂的进化模式,并通过 AlphaFold2 的反馈进一步增强模型能力,证实了 MSAGPT 在生成忠实的虚拟 MSA 以提高结构预测准确性方面的功效,并突显了其促进其他蛋白质任务的巨大潜力。
Jun, 2024