PEvoLM：蛋白质序列演化信息语言模型

Aug, 2023

PEvoLM：蛋白质序列演化信息语言模型

PEvoLM: Protein Sequence Evolutionary Information Language Model

Issar Arab

TL;DR该研究使用嵌入语言模型（ELMo）将蛋白质序列转化为数字向量表示，引入一种新颖的双向语言模型（bi-LM）以降低参数数量并使用单一路径进行预测，同时进行多任务学习以获取蛋白质序列的进化信息。

Abstract

With the exponential increase of the protein sequence databases over time, multiple-sequence alignment (MSA) methods, like PSI-BLAST, perform exhaustive and time-consuming database search to retrieve evolutionary

protein sequence multiple-sequence alignment position-specific scoring matrices embedding language model bi-lm

发现论文，激发创造

蛋白质语言模型与结构预测：联系与进展

本文系统地概述了蛋白质语言模型在蛋白质结构预测中的应用和方法，介绍了网络架构、预训练策略、常用蛋白质数据库等方面的最新进展和挑战，并展望了未来发展方向。

Nov, 2022

利用大规模预训练语言模型建模蛋白质

使用大规模的语言模型，可以从蛋白质序列中准确捕捉到进化信息，并在标记层和序列层任务中取得了显着的改进。

Aug, 2021

赋予蛋白质语言模型结构知识

利用蛋白质结构数据提升蛋白质语言模型的新框架，通过整合结构信息和结构提取模块，优化了预训练语言模型的自注意机制，此框架在蛋白质功能预测上表现优越，为蛋白质建模提供更有效和高效的方法。

Jan, 2024

利用结构信息学习蛋白质序列嵌入

本研究提出了一种基于表征学习的框架，将蛋白质序列映射到表示蛋白质结构信息的序列向量中，并通过双向 LSTM 模型和全局结构相似度以及单个蛋白质残基接触映射的反馈机制进行训练，实现了蛋白质序列在预测结构相似性方面的多任务学习，而且该方法在跨膜域预测方面也取得了优异的表现。

Feb, 2019

超越 ESM2: 借助高效聚类的图增强蛋白质序列建模

本研究使用 ESM2 最先进的蛋白质语言模型，并结合蛋白质家族分类和基于社区传播的聚类算法，改善了全局蛋白质表示和局部氨基酸准确性，从而大幅提升蛋白质表达质量，并在多个下游实验中取得了最先进的结果。

Apr, 2024

探索基于进化感知和无进化信息的蛋白质语言模型作为蛋白质功能预测器

本文研究探讨了 ESM-1b、MSA-Transformer 和 Evoformer 等三种常用蛋白质语言模型的表征能力，重点关注 Evoformer 在蛋白功能预测方面的表现，旨在回答三个关键问题：（i）AlphaFold 中的 Evoformer 能否产生适合预测蛋白功能的表征？（ii）如果可以，Evoformer 能否取代 ESM-1b 和 MSA-Transformer？（iii）这些 PLMs 在多大程度上依赖于与进化有关的蛋白数据？在这方面，它们是否互补？通过实证研究和新的见解和结论进行比较。附有完整的代码和数据集，可供复现。

Jun, 2022

SBSM-Pro：支持蛋白质的生物序列机器

我们提出了一种支持生物序列机器用于蛋白质分类的模型，该模型通过使用机器学习算法来帮助和引导生物实验，在生物技术应用中提供了重要的洞察。该研究展示了在蛋白质分类领域的最新工作，并为生物序列分类领域的新方向铺平了道路，对于定制的平台开发具有积极意义。

Aug, 2023

多尺度蛋白质语言模型用于统一分子建模

通过在多尺度编码切换的蛋白质序列上进行预训练，并利用多尺度位置编码来捕捉残基和原子之间的关系，ms-ESM（多尺度 ESM）提出了一种新颖的方法，实现了多尺度统一的分子建模，实验结果表明，ms-ESM 在蛋白质 - 分子任务方面超过了以前的方法，展示了蛋白质语言模型的全部利用，进一步的研究发现，通过统一的分子建模，ms-ESM 不仅获得了分子知识，还保留了对蛋白质的理解。

Mar, 2024

ProtTrans：通过自监督深度学习与高性能计算攻克生命密码的语言

通过训练两个自回归模型和四个自编码器模型，使用生物信息数据培训出来的语言模型（Language Models）能够在低推断开销下完成新的前沿预测，例如使用蛋白 LM - 嵌入 (ProtT5) 能够在无需使用进化信息的情况下，成功地进行氨基酸序列每残基预测，并出现在这个 https URL。

Jul, 2020

利用大型语言模型高效预测单点突变对蛋白质稳定性的影响

利用大型语言模型（LLM），我们引入了一种 ESM 辅助高效方法，将蛋白质序列和结构特征整合在一起，以预测单点突变引起的蛋白质热稳定性变化，并且我们设计了一个经过细致筛选的数据集，以避免数据泄漏，以便更公平地进行模型比较。

Dec, 2023