超越 ESM2: 借助高效聚类的图增强蛋白质序列建模

Apr, 2024

超越 ESM2: 借助高效聚类的图增强蛋白质序列建模

Beyond ESM2: Graph-Enhanced Protein Sequence Modeling with Efficient Clustering

Shujian Jiao, Bingxuan Li, Lei Wang, Xiaojin Zhang, Wei Chen...

TL;DR本研究使用 ESM2 最先进的蛋白质语言模型，并结合蛋白质家族分类和基于社区传播的聚类算法，改善了全局蛋白质表示和局部氨基酸准确性，从而大幅提升蛋白质表达质量，并在多个下游实验中取得了最先进的结果。

Abstract

proteins are essential to life's processes, underpinning evolution and diversity. Advances in sequencing technology have revealed millions of proteins, underscoring the need for sophisticated →

proteins pre-trained protein models esm2 protein family classification community propagation-based clustering algorithm

发现论文，激发创造

多尺度蛋白质语言模型用于统一分子建模

通过在多尺度编码切换的蛋白质序列上进行预训练，并利用多尺度位置编码来捕捉残基和原子之间的关系，ms-ESM（多尺度 ESM）提出了一种新颖的方法，实现了多尺度统一的分子建模，实验结果表明，ms-ESM 在蛋白质 - 分子任务方面超过了以前的方法，展示了蛋白质语言模型的全部利用，进一步的研究发现，通过统一的分子建模，ms-ESM 不仅获得了分子知识，还保留了对蛋白质的理解。

Mar, 2024

PEvoLM：蛋白质序列演化信息语言模型

该研究使用嵌入语言模型（ELMo）将蛋白质序列转化为数字向量表示，引入一种新颖的双向语言模型（bi-LM）以降低参数数量并使用单一路径进行预测，同时进行多任务学习以获取蛋白质序列的进化信息。

Aug, 2023

通过多序列比对改进蛋白质三级结构预测

该研究利用语言生成模型 MSA-Augmenter 及大规模 MSA 技术，微调 AlphaFold2 蛋白质结构预测模型在缺乏同源家族数据库的情况下，生成补充性的未见过的蛋白质序列，从而提高蛋白质结构预测准确性。

Jun, 2023

蛋白质表征学习的聚类

蛋白质表示学习是一个具有挑战性的任务，旨在从其氨基酸序列中捕获蛋白质的结构和功能。本文提出了一种神经聚类框架，通过考虑蛋白质的一级和三级结构信息来自动发现蛋白质的关键部分，在四个蛋白质相关任务上取得了最先进的表现。

Mar, 2024

ESM-NBR：通过蛋白质语言模型特征表示和多任务学习的快速准确核酸结合残基预测

通过使用 ESM2 作为输入，ESM-NBR 提出了一种快速准确的序列 - based 方法，采用由双向长短期记忆和多层感知器网络组成的深度学习模型，探索 DNA 和 RNA 结合残基的共有和私有信息。在基准数据集上的实验证明，ESM2 特征表征的预测性能全面优于基于进化信息的隐马尔可夫模型（HMM）特征。此外，ESM-NBR 的预测速度远远超过现有方法（用于 500 个蛋白质序列的时间为 5.52 秒，比第二快的方法快约 16 倍）。

Dec, 2023

ProGen2：探索蛋白质语言模型的界限

介绍了一套名为 ProGen2 的蛋白质语言模型，它具有 64 亿个参数，在来自多种数据库的超过 10 亿个蛋白质序列数据集上进行训练。ProGen2 模型表现出捕获已观察到的进化序列分布，生成新的可行序列以及在不需要额外微调的情况下预测蛋白质适应性的最佳性能。研究表明在向蛋白质序列模型提供数据分布时需要越来越多的关注点。

Jun, 2022

利用大型语言模型高效预测单点突变对蛋白质稳定性的影响

利用大型语言模型（LLM），我们引入了一种 ESM 辅助高效方法，将蛋白质序列和结构特征整合在一起，以预测单点突变引起的蛋白质热稳定性变化，并且我们设计了一个经过细致筛选的数据集，以避免数据泄漏，以便更公平地进行模型比较。

Dec, 2023

赋予蛋白质语言模型结构知识

利用蛋白质结构数据提升蛋白质语言模型的新框架，通过整合结构信息和结构提取模块，优化了预训练语言模型的自注意机制，此框架在蛋白质功能预测上表现优越，为蛋白质建模提供更有效和高效的方法。

Jan, 2024

探索基于进化感知和无进化信息的蛋白质语言模型作为蛋白质功能预测器

本文研究探讨了 ESM-1b、MSA-Transformer 和 Evoformer 等三种常用蛋白质语言模型的表征能力，重点关注 Evoformer 在蛋白功能预测方面的表现，旨在回答三个关键问题：（i）AlphaFold 中的 Evoformer 能否产生适合预测蛋白功能的表征？（ii）如果可以，Evoformer 能否取代 ESM-1b 和 MSA-Transformer？（iii）这些 PLMs 在多大程度上依赖于与进化有关的蛋白数据？在这方面，它们是否互补？通过实证研究和新的见解和结论进行比较。附有完整的代码和数据集，可供复现。

Jun, 2022

盲突变影响预测的多级蛋白质表示学习

本文提出了一种新的预训练框架，它将用于蛋白质主体结构和三级结构的序列和几何分析器级联，模拟野生型蛋白质的自然选择并评估变体的效果，以指导遗传突变方向，实现所需特征，提出了一种新的变体影响预测方法，其预测结果在单点和深部变异方面表现良好。

Jun, 2023