该研究利用语言生成模型 MSA-Augmenter 及大规模 MSA 技术,微调 AlphaFold2 蛋白质结构预测模型在缺乏同源家族数据库的情况下,生成补充性的未见过的蛋白质序列,从而提高蛋白质结构预测准确性。
Jun, 2023
MSAGPT 是一种新颖的方法,通过在低 MSA 水平下进行 MSA 生成预训练来促进蛋白质结构预测,其通过简单而有效的 2D 进化位置编码方案来建模复杂的进化模式,并通过 AlphaFold2 的反馈进一步增强模型能力,证实了 MSAGPT 在生成忠实的虚拟 MSA 以提高结构预测准确性方面的功效,并突显了其促进其他蛋白质任务的巨大潜力。
Jun, 2024
提出了一种全新的蛋白质进化转换器(PoET), 它是一种自回归生成整个蛋白家族的模型,可以用作检索嵌入式语言模型,从而生成和评分任意修饰物,并对深度突变扫描数据集进行广泛实验,可以改善所有 MSA 深度的蛋白质变体效应预测。
介绍了使用 Tranception 模型和 ProteinGym 数据集实现蛋白质序列的健康预测的方法。
May, 2022
为了推动蛋白质的机器学习研究进展,我们介绍了一个开源数据集 OpenProteinSet,其中包含超过 1600 万个蛋白质多序列比对,与蛋白质数据库中的结构同源物和 AlphaFold2 蛋白质结构预测相对应,可广泛用于蛋白质结构、功能、设计以及大规模多模式机器学习研究的训练和验证数据。
Aug, 2023
利用 1.2B 的参数语言模型 ProGen,将蛋白质工程视为无监督的序列生成问题,以此利用缺乏昂贵结构注释的蛋白质的日益增长的集合,从而生成出更具有进化多样性的序列,为解决合成生物学、医学和材料科学等领域的根本问题提供了可能。
Mar, 2020
该论文综述了近期将机器学习应用于蛋白质序列优化的发展,重点介绍了深度生成方法对这一过程的促进作用。
Apr, 2021
MMDesign 是一个结合了先前结构模块和语境模块的预训练模型的新型蛋白质设计范式,利用自编码器(AE)语言模型将蛋白质序列的先验语义知识纳入其中,并引入了一种跨层跨模态对齐算法来确保结构模块学习到长期时间信息并保持结构和语境模态的一致性,在仅使用小规模 CATH 数据集进行训练的实验结果表明,我们的 MMDesign 框架在各种公共测试集上始终优于其他基线方法,并提出了系统性定量分析技术来评估生成的蛋白质序列和数据分布的生物可能性,以展示其可解释性并揭示蛋白质设计的规律。
Dec, 2023
介绍了一套名为 ProGen2 的蛋白质语言模型,它具有 64 亿个参数,在来自多种数据库的超过 10 亿个蛋白质序列数据集上进行训练。ProGen2 模型表现出捕获已观察到的进化序列分布,生成新的可行序列以及在不需要额外微调的情况下预测蛋白质适应性的最佳性能。研究表明在向蛋白质序列模型提供数据分布时需要越来越多的关注点。
Jun, 2022
该研究总结了在蛋白质研究中使用语言模型的应用,包括设计新型人工蛋白质、使用非 Transformer 结构以及应用于定向进化方面。这些成果已经快速提升了蛋白质研究的发展和性能。
May, 2023