使用掩码语言建模配对相互作用蛋白序列
该研究利用语言生成模型 MSA-Augmenter 及大规模 MSA 技术,微调 AlphaFold2 蛋白质结构预测模型在缺乏同源家族数据库的情况下,生成补充性的未见过的蛋白质序列,从而提高蛋白质结构预测准确性。
Jun, 2023
pAbT5 是第一个用于蛋白质 - 蛋白质相互作用的编码器 - 解码器 LM,其通过使用 T5-based 架构对抗体链配对进行正向和逆向翻译,可以准确地反映链配对。
Jan, 2023
本文研究探讨了 ESM-1b、MSA-Transformer 和 Evoformer 等三种常用蛋白质语言模型的表征能力,重点关注 Evoformer 在蛋白功能预测方面的表现,旨在回答三个关键问题:(i)AlphaFold 中的 Evoformer 能否产生适合预测蛋白功能的表征?(ii)如果可以,Evoformer 能否取代 ESM-1b 和 MSA-Transformer?(iii)这些 PLMs 在多大程度上依赖于与进化有关的蛋白数据?在这方面,它们是否互补?通过实证研究和新的见解和结论进行比较。附有完整的代码和数据集,可供复现。
Jun, 2022
本研究提出了一种新的蛋白质结构预测方法 ——HelixFold-Single,它基于大规模蛋白质语言模型,将原始序列代替同源序列用于学习蛋白质序列的共同进化信息,并结合 AlphaFold2 的关键组件预测蛋白质原子的三维坐标,其在 CASP14 和 CAMEO 数据集中准确度表现良好,同时能够节省大量的计算时间。
Jul, 2022
该研究使用嵌入语言模型(ELMo)将蛋白质序列转化为数字向量表示,引入一种新颖的双向语言模型(bi-LM)以降低参数数量并使用单一路径进行预测,同时进行多任务学习以获取蛋白质序列的进化信息。
Aug, 2023
本文提出了基于 MSA 的蛋白质变换器,是一种基于多序列比对的蛋白质序列生成模型,能够准确地建模表观效应和插入缺失,并且相比已有的基于专用家族模型的方法,其泛化性能更好,尤其在 MSAs 很小的情况下表现出色,能够精确推断和高效采样。
Apr, 2022
利用蛋白质结构数据提升蛋白质语言模型的新框架,通过整合结构信息和结构提取模块,优化了预训练语言模型的自注意机制,此框架在蛋白质功能预测上表现优越,为蛋白质建模提供更有效和高效的方法。
Jan, 2024
本文提出了一种新的预训练框架,它将用于蛋白质主体结构和三级结构的序列和几何分析器级联,模拟野生型蛋白质的自然选择并评估变体的效果,以指导遗传突变方向,实现所需特征,提出了一种新的变体影响预测方法,其预测结果在单点和深部变异方面表现良好。
Jun, 2023
本文系统地概述了蛋白质语言模型在蛋白质结构预测中的应用和方法,介绍了网络架构、预训练策略、常用蛋白质数据库等方面的最新进展和挑战,并展望了未来发展方向。
Nov, 2022
MSAGPT 是一种新颖的方法,通过在低 MSA 水平下进行 MSA 生成预训练来促进蛋白质结构预测,其通过简单而有效的 2D 进化位置编码方案来建模复杂的进化模式,并通过 AlphaFold2 的反馈进一步增强模型能力,证实了 MSAGPT 在生成忠实的虚拟 MSA 以提高结构预测准确性方面的功效,并突显了其促进其他蛋白质任务的巨大潜力。
Jun, 2024