OpenProteinSet: 大规模结构生物学训练数据

Aug, 2023

OpenProteinSet: 大规模结构生物学训练数据

OpenProteinSet: Training data for structural biology at scale

Gustaf Ahdritz, Nazim Bouatta, Sachin Kadyan, Lukas Jarosch, Daniel Berenberg...

TL;DR为了推动蛋白质的机器学习研究进展，我们介绍了一个开源数据集 OpenProteinSet，其中包含超过 1600 万个蛋白质多序列比对，与蛋白质数据库中的结构同源物和 AlphaFold2 蛋白质结构预测相对应，可广泛用于蛋白质结构、功能、设计以及大规模多模式机器学习研究的训练和验证数据。

Abstract

multiple sequence alignments (MSAs) of proteins encode rich biological information and have been workhorses in bioinformatic methods for tasks like protein design and protein structure prediction for decades. Rec

multiple sequence alignments proteins alphafold2 openproteinset machine learning

发现论文，激发创造

通过多序列比对改进蛋白质三级结构预测

该研究利用语言生成模型 MSA-Augmenter 及大规模 MSA 技术，微调 AlphaFold2 蛋白质结构预测模型在缺乏同源家族数据库的情况下，生成补充性的未见过的蛋白质序列，从而提高蛋白质结构预测准确性。

Jun, 2023

ProteinNet：用于蛋白质结构机器学习的标准化数据集

这篇研究论文介绍了一种名为 ProteinNet 的数据集，在蛋白质序列 - 结构关系的机器学习模型的训练和评估方面提供了一种标准化机制，并提出了一种方法来克服已有数据集中存在的一些挑战。

Feb, 2019

少样本蛋白生成

本文提出了基于 MSA 的蛋白质变换器，是一种基于多序列比对的蛋白质序列生成模型，能够准确地建模表观效应和插入缺失，并且相比已有的基于专用家族模型的方法，其泛化性能更好，尤其在 MSAs 很小的情况下表现出色，能够精确推断和高效采样。

Apr, 2022

HelixFold-Single: 使用蛋白语言模型作为替代品进行无多序列比对蛋白质结构预测

本研究提出了一种新的蛋白质结构预测方法 ——HelixFold-Single，它基于大规模蛋白质语言模型，将原始序列代替同源序列用于学习蛋白质序列的共同进化信息，并结合 AlphaFold2 的关键组件预测蛋白质原子的三维坐标，其在 CASP14 和 CAMEO 数据集中准确度表现良好，同时能够节省大量的计算时间。

Jul, 2022

MSAGPT: 利用 MSA 生成预训练进行神经启发蛋白质结构预测

MSAGPT 是一种新颖的方法，通过在低 MSA 水平下进行 MSA 生成预训练来促进蛋白质结构预测，其通过简单而有效的 2D 进化位置编码方案来建模复杂的进化模式，并通过 AlphaFold2 的反馈进一步增强模型能力，证实了 MSAGPT 在生成忠实的虚拟 MSA 以提高结构预测准确性方面的功效，并突显了其促进其他蛋白质任务的巨大潜力。

Jun, 2024

AlphaFold 与流匹配相遇：生成蛋白质合集

生物蛋白质的功能常依赖于动态结构集合，本研究通过开发一种基于流动的生成建模方法来学习和采样蛋白质的构象空间，利用 AlphaFold 和 ESMFold 等高精度单状态预测器进行改进，获得了名为 AlphaFlow 和 ESMFlow 的蛋白质结构的序列有条件的生成模型。在 PDB 上经过训练和评估时，我们的方法在精确性和多样性方面相比于具有 MSA 子采样的 AlphaFold 更具优势。当进一步在全原子 MD 的集合上进行训练后，我们的方法能够准确捕捉未知蛋白质的构象灵活性、位置分布和高阶集合观测量。此外，我们的方法可以使静态 PDB 结构多样化，并具有比复制的 MD 轨迹更快的收敛时间，展示了其作为昂贵的基于物理的仿真的替代品的潜力。

Feb, 2024

蛋白质结构预测的精确折叠景观的少样本学习

使用 EvoGen 元生成模型，结合 AlphaFold2 模型，使得利用少量多序列比对（MSA）系统的性能得到提高，从而精准低数据的蛋白质结构预测。

Aug, 2022

AlphaDesign：一种基于图形的蛋白质设计方法，并在 AlphaFoldDB 上进行了基准测试

该研究基于 AlphaFold DB 建立了一个新的基于图的基准测试 AlphaDesign，并提出了一种使用蛋白质角度作为新特征、使用简化图变换器编码器（SGT）和使用自信蛋白解码器（CPD）来提高精度的新方法 - ADesign。实验表明，此方法比以前的图形模型表现要好得多，均值精度提高了 8％，推断速度比以前快 40 多倍。

Feb, 2022

ScaleFold: 将 AlphaFold 初始训练时间缩短至 10 小时

AlphaFold2 是蛋白质折叠领域的突破性成果，但其实现不包括必要的训练代码。OpenFold 是 AlphaFold 的第一个可训练的公共重新实现。本研究在 OpenFold 的基础上对 AlphaFold 的训练过程进行了全面分析，发现低效的通信和资源开销过大的计算是导致 AlphaFold 训练无法有效扩展的关键因素。我们提出了 ScaleFold，这是一种系统化的训练方法，专门针对这些因素进行了优化。ScaleFold 成功将 AlphaFold 训练扩展到 2080 个 NVIDIA H100 GPU，资源利用率高。在 MLPerf HPC v3.0 基准测试中，ScaleFold 在 7.51 分钟内完成了 OpenFold 基准测试，比基线快了 6 倍。对于从头开始训练 AlphaFold 模型，ScaleFold 的预训练只需 10 小时，比原始 AlphaFold 预训练基线的七天显著提高。

Apr, 2024

探索基于进化感知和无进化信息的蛋白质语言模型作为蛋白质功能预测器

本文研究探讨了 ESM-1b、MSA-Transformer 和 Evoformer 等三种常用蛋白质语言模型的表征能力，重点关注 Evoformer 在蛋白功能预测方面的表现，旨在回答三个关键问题：（i）AlphaFold 中的 Evoformer 能否产生适合预测蛋白功能的表征？（ii）如果可以，Evoformer 能否取代 ESM-1b 和 MSA-Transformer？（iii）这些 PLMs 在多大程度上依赖于与进化有关的蛋白数据？在这方面，它们是否互补？通过实证研究和新的见解和结论进行比较。附有完整的代码和数据集，可供复现。

Jun, 2022