Tranception: 利用自回归转换器和推断时检索进行蛋白质适应性预测

ICMLMay, 2022

Tranception: 利用自回归转换器和推断时检索进行蛋白质适应性预测

Tranception: protein fitness prediction with autoregressive transformers and inference-time retrieval

Pascal Notin, Mafalda Dias, Jonathan Frazer, Javier Marchena-Hurtado, Aidan Gomez...

TL;DR介绍了使用 Tranception 模型和 ProteinGym 数据集实现蛋白质序列的健康预测的方法。

Abstract

The ability to accurately model the fitness landscape of protein sequences is critical to a wide range of applications, from quantifying the effects of human variants on disease likelihood, to predicting immune-escape mutations in viruses and designing novel biotherapeutic proteins.

protein sequences deep generative models fitness prediction transformer architecture proteingym

发现论文，激发创造

应用生成预训练自回归转换器图神经网络分析和发现新型蛋白质

利用基于语言模型的灵活深度学习策略，基于一个完全基于提示的模型，将 transformer 和图卷积架构集成到因果多头图机制中，实现一个生成预训练模型，用于预测蛋白质的二级结构内容、蛋白质可溶性和蛋白质测序等任务，并可用于设计具有这些特性的蛋白质，这个模型展现了多任务和协同作用的应用价值。

May, 2023

少样本蛋白生成

本文提出了基于 MSA 的蛋白质变换器，是一种基于多序列比对的蛋白质序列生成模型，能够准确地建模表观效应和插入缺失，并且相比已有的基于专用家族模型的方法，其泛化性能更好，尤其在 MSAs 很小的情况下表现出色，能够精确推断和高效采样。

Apr, 2022

利用 Transformer 神经网络同时考虑序列和结构进行蛋白质预测任务

本研究通过转换神经网络来实现蛋白质序列与三级结构的联合表示，进而提高了与功能相关的预测任务的表现，包括超家族成员预测。

Jun, 2022

PoET: 蛋白家族的生成模型，作为序列组成的序列

提出了一种全新的蛋白质进化转换器（PoET）, 它是一种自回归生成整个蛋白家族的模型，可以用作检索嵌入式语言模型，从而生成和评分任意修饰物，并对深度突变扫描数据集进行广泛实验，可以改善所有 MSA 深度的蛋白质变体效应预测。

Jun, 2023

盲突变影响预测的多级蛋白质表示学习

本文提出了一种新的预训练框架，它将用于蛋白质主体结构和三级结构的序列和几何分析器级联，模拟野生型蛋白质的自然选择并评估变体的效果，以指导遗传突变方向，实现所需特征，提出了一种新的变体影响预测方法，其预测结果在单点和深部变异方面表现良好。

Jun, 2023

ProtTrans：通过自监督深度学习与高性能计算攻克生命密码的语言

通过训练两个自回归模型和四个自编码器模型，使用生物信息数据培训出来的语言模型（Language Models）能够在低推断开销下完成新的前沿预测，例如使用蛋白 LM - 嵌入 (ProtT5) 能够在无需使用进化信息的情况下，成功地进行氨基酸序列每残基预测，并出现在这个 https URL。

Jul, 2020

利用全局生成模型探索蛋白质序列空间

该研究总结了在蛋白质研究中使用语言模型的应用，包括设计新型人工蛋白质、使用非 Transformer 结构以及应用于定向进化方面。这些成果已经快速提升了蛋白质研究的发展和性能。

May, 2023

蛋白质序列的变分自编码

使用变分自编码器对天然蛋白序列进行嵌入，以预测突变对蛋白质功能的影响，并可用于计算引导蛋白质序列空间的探索和更好地指导有理和自动蛋白质设计。

Dec, 2017

xTrimoPGLM: 语言解码的统一百亿级预训练变压器

通过创新的预训练框架，提出了一个统一的蛋白质语言模型 xTrimoPGLM，能够同时处理蛋白质理解和生成任务，拥有超过 1000 亿个参数和 1 万亿个训练标记的前所未有的规模。在 18 个蛋白质理解基准测试中，xTrimoPGLM 明显优于其他先进基准，能够提供蛋白质结构的原子分辨率视图，并超越现有基于语言模型的工具的 3D 结构预测能力。此外，xTrimoPGLM 不仅可以根据自然原理生成全新的蛋白质序列，还可以在有监督的精调后进行可编程的生成。这些结果凸显了 xTrimoPGLM 在理解和生成蛋白质序列方面的重大能力和多功能性，在蛋白质科学基础模型的发展中具有重要意义。

Jan, 2024

探寻 Transformer 模型在蛋白质功能预测中的内部机制

我们探索了可解释的人工智能（XAI）如何帮助揭示神经网络在蛋白质功能预测中的内部运作，通过扩展广泛使用的 XAI 方法 —— 集成梯度，使得可以检查 Gene Ontology 术语和酶委员会编号预测中微调的 Transformer 模型内部的潜在表示。

Sep, 2023