蛋白质序列的变分自编码

NIPSDec, 2017

Variational auto-encoding of protein sequences

Sam Sinai, Eric Kelsic, George M. Church, Martin A. Nowak

TL;DR使用变分自编码器对天然蛋白序列进行嵌入，以预测突变对蛋白质功能的影响，并可用于计算引导蛋白质序列空间的探索和更好地指导有理和自动蛋白质设计。

Abstract

proteins are responsible for the most diverse set of functions in biology. The ability to extract information from protein sequences and to predict the effects of →

proteins sequences mutations function auto-encoder

发现论文，激发创造

使用变分自编码器设计金属蛋白和新型蛋白质折叠

利用变分自编码器生成所需属性的蛋白质序列，不需要人为干预，可添加潜在的铜和钙结合位点并与隐马尔可夫模型进行比较，同时开发了蛋白质结构语法用来产生一种新型蛋白质拓扑结构。该模型能够限制蛋白质序列的搜索空间，易于扩展，有助于各种蛋白质设计任务。

Jun, 2018

通过解释性变分自编码器生成三级蛋白质结构

本文提出并评估了一种利用生成深度学习的图形生成模型，生成蛋白质的功能相关三维结构的替代方法，并评价了几种深层结构的全面评估。

Apr, 2020

盲突变影响预测的多级蛋白质表示学习

本文提出了一种新的预训练框架，它将用于蛋白质主体结构和三级结构的序列和几何分析器级联，模拟野生型蛋白质的自然选择并评估变体的效果，以指导遗传突变方向，实现所需特征，提出了一种新的变体影响预测方法，其预测结果在单点和深部变异方面表现良好。

Jun, 2023

深度生成模型捕捉突变效应的遗传变异

提出了一种基于深度学习的模型 DeepSequence，可以预测基因突变对分子属性的影响，具有非线性的高阶约束，是一种能够应用于有关蛋白质和 RNA 相互作用的普适模型。

Dec, 2017

使用等变平移技术进行蛋白质序列和结构联合设计

本文提出了一种基于上下文特征的三角函数编码器和旋转平移等变解码器，能够在随机初始化的基础上迭代地将蛋白质序列和结构转化为所需状态，从而设计高保真度的蛋白质的新方法。实验结果表明，该方法在多项任务上均优于现有基线算法，而且比基于抽样的方法更快且可靠。

Oct, 2022

蛋白质结构生成的潜扩散模型

本研究提出了一种潜在的扩散模型，该模型可以在凝聚的潜在空间中灵活捕捉天然蛋白质结构的分布，从而通过等变蛋白自编码器生成高可设计性和高效率的新型蛋白质骨架结构。

May, 2023

DNA 序列的无监督表示学习

本文利用一种序列到序列自编码器模型以无监督的方式学习长度可变的 DNA 序列的固定维度的潜在表示，并在监督学习的拼接位点分类任务中进行了定量和定性评估。实验表明，此类表示法可用作通常相关的任务中的特征或先验，并且采用的模型归因技术获得的序列特征对分类精度有显著影响。

Jun, 2019

利用等变图神经网络预测蛋白质变异体

通过使用改良版图神经网络和序列为基础的方法进行比较，本文旨在填补预测最优蛋白变体的结构和基序方法之间的研究缺口，结果显示出使用这种新方法在训练更少的分子数量时实现了接近基序方法的竞争性性能，此外，将结构预训练模型与测定的标记数据相结合，可以产生与序列预训练模型类似的趋势。

Jun, 2023

利用深度生成模型进行蛋白质序列设计

该论文综述了近期将机器学习应用于蛋白质序列优化的发展，重点介绍了深度生成方法对这一过程的促进作用。

Apr, 2021

Tranception: 利用自回归转换器和推断时检索进行蛋白质适应性预测

介绍了使用 Tranception 模型和 ProteinGym 数据集实现蛋白质序列的健康预测的方法。

May, 2022