OpenProteinSet: 大规模结构生物学训练数据
该研究利用语言生成模型 MSA-Augmenter 及大规模 MSA 技术,微调 AlphaFold2 蛋白质结构预测模型在缺乏同源家族数据库的情况下,生成补充性的未见过的蛋白质序列,从而提高蛋白质结构预测准确性。
Jun, 2023
这篇研究论文介绍了一种名为 ProteinNet 的数据集,在蛋白质序列 - 结构关系的机器学习模型的训练和评估方面提供了一种标准化机制,并提出了一种方法来克服已有数据集中存在的一些挑战。
Feb, 2019
本文提出了基于 MSA 的蛋白质变换器,是一种基于多序列比对的蛋白质序列生成模型,能够准确地建模表观效应和插入缺失,并且相比已有的基于专用家族模型的方法,其泛化性能更好,尤其在 MSAs 很小的情况下表现出色,能够精确推断和高效采样。
Apr, 2022
本研究提出了一种新的蛋白质结构预测方法 ——HelixFold-Single,它基于大规模蛋白质语言模型,将原始序列代替同源序列用于学习蛋白质序列的共同进化信息,并结合 AlphaFold2 的关键组件预测蛋白质原子的三维坐标,其在 CASP14 和 CAMEO 数据集中准确度表现良好,同时能够节省大量的计算时间。
Jul, 2022
MSAGPT 是一种新颖的方法,通过在低 MSA 水平下进行 MSA 生成预训练来促进蛋白质结构预测,其通过简单而有效的 2D 进化位置编码方案来建模复杂的进化模式,并通过 AlphaFold2 的反馈进一步增强模型能力,证实了 MSAGPT 在生成忠实的虚拟 MSA 以提高结构预测准确性方面的功效,并突显了其促进其他蛋白质任务的巨大潜力。
Jun, 2024
生物蛋白质的功能常依赖于动态结构集合,本研究通过开发一种基于流动的生成建模方法来学习和采样蛋白质的构象空间,利用 AlphaFold 和 ESMFold 等高精度单状态预测器进行改进,获得了名为 AlphaFlow 和 ESMFlow 的蛋白质结构的序列有条件的生成模型。在 PDB 上经过训练和评估时,我们的方法在精确性和多样性方面相比于具有 MSA 子采样的 AlphaFold 更具优势。当进一步在全原子 MD 的集合上进行训练后,我们的方法能够准确捕捉未知蛋白质的构象灵活性、位置分布和高阶集合观测量。此外,我们的方法可以使静态 PDB 结构多样化,并具有比复制的 MD 轨迹更快的收敛时间,展示了其作为昂贵的基于物理的仿真的替代品的潜力。
Feb, 2024
使用 EvoGen 元生成模型,结合 AlphaFold2 模型,使得利用少量多序列比对(MSA)系统的性能得到提高,从而精准低数据的蛋白质结构预测。
Aug, 2022
该研究基于 AlphaFold DB 建立了一个新的基于图的基准测试 AlphaDesign,并提出了一种使用蛋白质角度作为新特征、使用简化图变换器编码器(SGT)和使用自信蛋白解码器(CPD)来提高精度的新方法 - ADesign。实验表明,此方法比以前的图形模型表现要好得多,均值精度提高了 8%,推断速度比以前快 40 多倍。
Feb, 2022
AlphaFold2 是蛋白质折叠领域的突破性成果,但其实现不包括必要的训练代码。OpenFold 是 AlphaFold 的第一个可训练的公共重新实现。本研究在 OpenFold 的基础上对 AlphaFold 的训练过程进行了全面分析,发现低效的通信和资源开销过大的计算是导致 AlphaFold 训练无法有效扩展的关键因素。我们提出了 ScaleFold,这是一种系统化的训练方法,专门针对这些因素进行了优化。ScaleFold 成功将 AlphaFold 训练扩展到 2080 个 NVIDIA H100 GPU,资源利用率高。在 MLPerf HPC v3.0 基准测试中,ScaleFold 在 7.51 分钟内完成了 OpenFold 基准测试,比基线快了 6 倍。对于从头开始训练 AlphaFold 模型,ScaleFold 的预训练只需 10 小时,比原始 AlphaFold 预训练基线的七天显著提高。
Apr, 2024
本文研究探讨了 ESM-1b、MSA-Transformer 和 Evoformer 等三种常用蛋白质语言模型的表征能力,重点关注 Evoformer 在蛋白功能预测方面的表现,旨在回答三个关键问题:(i)AlphaFold 中的 Evoformer 能否产生适合预测蛋白功能的表征?(ii)如果可以,Evoformer 能否取代 ESM-1b 和 MSA-Transformer?(iii)这些 PLMs 在多大程度上依赖于与进化有关的蛋白数据?在这方面,它们是否互补?通过实证研究和新的见解和结论进行比较。附有完整的代码和数据集,可供复现。
Jun, 2022