蛋白质结构预测的精确折叠景观的少样本学习

Aug, 2022

蛋白质结构预测的精确折叠景观的少样本学习

Few-Shot Learning of Accurate Folding Landscape for Protein Structure Prediction

Jun Zhang, Sirui Liu, Mengyun Chen, Haotian Chu, Min Wang...

TL;DR使用 EvoGen 元生成模型，结合 AlphaFold2 模型，使得利用少量多序列比对（MSA）系统的性能得到提高，从而精准低数据的蛋白质结构预测。

Abstract

Data-driven predictive methods which can efficiently and accurately transform protein sequences into biologically active structures are highly valuable for scientific research and therapeutical development. Determining accurate folding landscape using co-evolutionary information is fun

protein structure prediction co-evolutionary information meta generative model msa targets alphafold2

发现论文，激发创造

通过多序列比对改进蛋白质三级结构预测

该研究利用语言生成模型 MSA-Augmenter 及大规模 MSA 技术，微调 AlphaFold2 蛋白质结构预测模型在缺乏同源家族数据库的情况下，生成补充性的未见过的蛋白质序列，从而提高蛋白质结构预测准确性。

Jun, 2023

EigenFold: 基于扩散模型的生成蛋白质结构预测

使用 EigenFold 这种扩散生成建模框架，以从给定蛋白质序列中生成结构的分布，更全面地了解模型不确定性，并评估 EigenFold 对于建模和预测折叠转换蛋白质和配体诱导构象变化的能力，该方法在最近的 CAMEO 目标中实现了中位 TMScore 为 0.84，可以更好地捕捉构象情况下的生物学功能。

Apr, 2023

探索基于进化感知和无进化信息的蛋白质语言模型作为蛋白质功能预测器

本文研究探讨了 ESM-1b、MSA-Transformer 和 Evoformer 等三种常用蛋白质语言模型的表征能力，重点关注 Evoformer 在蛋白功能预测方面的表现，旨在回答三个关键问题：（i）AlphaFold 中的 Evoformer 能否产生适合预测蛋白功能的表征？（ii）如果可以，Evoformer 能否取代 ESM-1b 和 MSA-Transformer？（iii）这些 PLMs 在多大程度上依赖于与进化有关的蛋白数据？在这方面，它们是否互补？通过实证研究和新的见解和结论进行比较。附有完整的代码和数据集，可供复现。

Jun, 2022

AlphaFold 与流匹配相遇：生成蛋白质合集

生物蛋白质的功能常依赖于动态结构集合，本研究通过开发一种基于流动的生成建模方法来学习和采样蛋白质的构象空间，利用 AlphaFold 和 ESMFold 等高精度单状态预测器进行改进，获得了名为 AlphaFlow 和 ESMFlow 的蛋白质结构的序列有条件的生成模型。在 PDB 上经过训练和评估时，我们的方法在精确性和多样性方面相比于具有 MSA 子采样的 AlphaFold 更具优势。当进一步在全原子 MD 的集合上进行训练后，我们的方法能够准确捕捉未知蛋白质的构象灵活性、位置分布和高阶集合观测量。此外，我们的方法可以使静态 PDB 结构多样化，并具有比复制的 MD 轨迹更快的收敛时间，展示了其作为昂贵的基于物理的仿真的替代品的潜力。

Feb, 2024

HelixFold-Single: 使用蛋白语言模型作为替代品进行无多序列比对蛋白质结构预测

本研究提出了一种新的蛋白质结构预测方法 ——HelixFold-Single，它基于大规模蛋白质语言模型，将原始序列代替同源序列用于学习蛋白质序列的共同进化信息，并结合 AlphaFold2 的关键组件预测蛋白质原子的三维坐标，其在 CASP14 和 CAMEO 数据集中准确度表现良好，同时能够节省大量的计算时间。

Jul, 2022

利用进化抽样改进基于少样本学习的蛋白质工程

本文提出一种少样本学习的方法来设计新的功能性蛋白质，该方法包括半监督迁移学习生成离散可行解空间和新型进化蒙特卡罗马尔可夫链采样算法更高效地探索可行解空间。我们在实验中展示了该方法设计出的高适应度基因激活剂有着比现有方法显著的命中率提升，且该方法可以轻松应用在其他蛋白质工程和设计问题中。

May, 2023

盲突变影响预测的多级蛋白质表示学习

本文提出了一种新的预训练框架，它将用于蛋白质主体结构和三级结构的序列和几何分析器级联，模拟野生型蛋白质的自然选择并评估变体的效果，以指导遗传突变方向，实现所需特征，提出了一种新的变体影响预测方法，其预测结果在单点和深部变异方面表现良好。

Jun, 2023

AF2-Mutation: AlphaFold2 蛋白质三级结构预测的对抗性序列突变

本文探讨了基于深度学习的 AlphaFold2 方法在蛋白质三级结构预测中的优势，以及对于突变的限制。通过进化方法生成对抗性序列，只修改三个氨基酸残基就能使 AlphaFold2 预测结果相差甚远，同时，该方法也能快速识别关键的氨基酸残基和蛋白质的可能性构象，从而大大加速蛋白质结构的实验过程。

May, 2023

OpenProteinSet: 大规模结构生物学训练数据

为了推动蛋白质的机器学习研究进展，我们介绍了一个开源数据集 OpenProteinSet，其中包含超过 1600 万个蛋白质多序列比对，与蛋白质数据库中的结构同源物和 AlphaFold2 蛋白质结构预测相对应，可广泛用于蛋白质结构、功能、设计以及大规模多模式机器学习研究的训练和验证数据。

Aug, 2023

MSAGPT: 利用 MSA 生成预训练进行神经启发蛋白质结构预测

MSAGPT 是一种新颖的方法，通过在低 MSA 水平下进行 MSA 生成预训练来促进蛋白质结构预测，其通过简单而有效的 2D 进化位置编码方案来建模复杂的进化模式，并通过 AlphaFold2 的反馈进一步增强模型能力，证实了 MSAGPT 在生成忠实的虚拟 MSA 以提高结构预测准确性方面的功效，并突显了其促进其他蛋白质任务的巨大潜力。

Jun, 2024