少样本蛋白生成

Apr, 2022

Few Shot Protein Generation

Soumya Ram, Tristan Bepler

TL;DR本文提出了基于 MSA 的蛋白质变换器，是一种基于多序列比对的蛋白质序列生成模型，能够准确地建模表观效应和插入缺失，并且相比已有的基于专用家族模型的方法，其泛化性能更好，尤其在 MSAs 很小的情况下表现出色，能够精确推断和高效采样。

Abstract

We present the msa-to-protein transformer, a generative model of protein sequences conditioned on protein families represented by multiple

msa-to-protein transformer generative model multiple sequence alignments protein families epistasis

发现论文，激发创造

通过多序列比对改进蛋白质三级结构预测

该研究利用语言生成模型 MSA-Augmenter 及大规模 MSA 技术，微调 AlphaFold2 蛋白质结构预测模型在缺乏同源家族数据库的情况下，生成补充性的未见过的蛋白质序列，从而提高蛋白质结构预测准确性。

Jun, 2023

MSAGPT: 利用 MSA 生成预训练进行神经启发蛋白质结构预测

MSAGPT 是一种新颖的方法，通过在低 MSA 水平下进行 MSA 生成预训练来促进蛋白质结构预测，其通过简单而有效的 2D 进化位置编码方案来建模复杂的进化模式，并通过 AlphaFold2 的反馈进一步增强模型能力，证实了 MSAGPT 在生成忠实的虚拟 MSA 以提高结构预测准确性方面的功效，并突显了其促进其他蛋白质任务的巨大潜力。

Jun, 2024

PoET: 蛋白家族的生成模型，作为序列组成的序列

提出了一种全新的蛋白质进化转换器（PoET）, 它是一种自回归生成整个蛋白家族的模型，可以用作检索嵌入式语言模型，从而生成和评分任意修饰物，并对深度突变扫描数据集进行广泛实验，可以改善所有 MSA 深度的蛋白质变体效应预测。

Jun, 2023

Tranception: 利用自回归转换器和推断时检索进行蛋白质适应性预测

介绍了使用 Tranception 模型和 ProteinGym 数据集实现蛋白质序列的健康预测的方法。

May, 2022

OpenProteinSet: 大规模结构生物学训练数据

为了推动蛋白质的机器学习研究进展，我们介绍了一个开源数据集 OpenProteinSet，其中包含超过 1600 万个蛋白质多序列比对，与蛋白质数据库中的结构同源物和 AlphaFold2 蛋白质结构预测相对应，可广泛用于蛋白质结构、功能、设计以及大规模多模式机器学习研究的训练和验证数据。

Aug, 2023

ProGen: 蛋白质生成的语言建模

利用 1.2B 的参数语言模型 ProGen，将蛋白质工程视为无监督的序列生成问题，以此利用缺乏昂贵结构注释的蛋白质的日益增长的集合，从而生成出更具有进化多样性的序列，为解决合成生物学、医学和材料科学等领域的根本问题提供了可能。

Mar, 2020

利用深度生成模型进行蛋白质序列设计

该论文综述了近期将机器学习应用于蛋白质序列优化的发展，重点介绍了深度生成方法对这一过程的促进作用。

Apr, 2021

MMDesign：多模态迁移学习用于生成蛋白质设计

MMDesign 是一个结合了先前结构模块和语境模块的预训练模型的新型蛋白质设计范式，利用自编码器（AE）语言模型将蛋白质序列的先验语义知识纳入其中，并引入了一种跨层跨模态对齐算法来确保结构模块学习到长期时间信息并保持结构和语境模态的一致性，在仅使用小规模 CATH 数据集进行训练的实验结果表明，我们的 MMDesign 框架在各种公共测试集上始终优于其他基线方法，并提出了系统性定量分析技术来评估生成的蛋白质序列和数据分布的生物可能性，以展示其可解释性并揭示蛋白质设计的规律。

Dec, 2023

ProGen2：探索蛋白质语言模型的界限

介绍了一套名为 ProGen2 的蛋白质语言模型，它具有 64 亿个参数，在来自多种数据库的超过 10 亿个蛋白质序列数据集上进行训练。ProGen2 模型表现出捕获已观察到的进化序列分布，生成新的可行序列以及在不需要额外微调的情况下预测蛋白质适应性的最佳性能。研究表明在向蛋白质序列模型提供数据分布时需要越来越多的关注点。

Jun, 2022

利用全局生成模型探索蛋白质序列空间

该研究总结了在蛋白质研究中使用语言模型的应用，包括设计新型人工蛋白质、使用非 Transformer 结构以及应用于定向进化方面。这些成果已经快速提升了蛋白质研究的发展和性能。

May, 2023