蛋白质语言模型与结构预测：联系与进展

Nov, 2022

蛋白质语言模型与结构预测：联系与进展

Protein Language Models and Structure Prediction: Connection and Progression

Bozhen Hu, Jun Xia, Jiangbin Zheng, Cheng Tan, Yufei Huang...

TL;DR本文系统地概述了蛋白质语言模型在蛋白质结构预测中的应用和方法，介绍了网络架构、预训练策略、常用蛋白质数据库等方面的最新进展和挑战，并展望了未来发展方向。

Abstract

The prediction of protein structures from sequences is an important task for function prediction, drug design, and related biological processes understanding. Recent advances have proved the power of language models (LMs) in processing the protein sequence databases, which inherit the advantages of attention networks and capture useful information in learnin

protein language model protein structure prediction network architectures pre-training strategies protein databases

发现论文，激发创造

赋予蛋白质语言模型结构知识

利用蛋白质结构数据提升蛋白质语言模型的新框架，通过整合结构信息和结构提取模块，优化了预训练语言模型的自注意机制，此框架在蛋白质功能预测上表现优越，为蛋白质建模提供更有效和高效的方法。

Jan, 2024

PEvoLM：蛋白质序列演化信息语言模型

该研究使用嵌入语言模型（ELMo）将蛋白质序列转化为数字向量表示，引入一种新颖的双向语言模型（bi-LM）以降低参数数量并使用单一路径进行预测，同时进行多任务学习以获取蛋白质序列的进化信息。

Aug, 2023

基于结构信息的蛋白质语言模型

通过将远程同源检测集成到蛋白质语言模型中，我们实现了将结构信息融入蛋白质语言模型，从而在蛋白质功能预测任务中提高了功能注释准确性。

Feb, 2024

利用大规模预训练语言模型建模蛋白质

使用大规模的语言模型，可以从蛋白质序列中准确捕捉到进化信息，并在标记层和序列层任务中取得了显着的改进。

Aug, 2021

利用全局生成模型探索蛋白质序列空间

该研究总结了在蛋白质研究中使用语言模型的应用，包括设计新型人工蛋白质、使用非 Transformer 结构以及应用于定向进化方面。这些成果已经快速提升了蛋白质研究的发展和性能。

May, 2023

蛋白质语言模型驱动的蛋白质序列预测三维配体结合位点

预测蛋白质的配体结合位点对于理解蛋白质功能和筛选潜在药物是一项基础而重要的任务。通过使用蛋白序列和配体分子图作为输入，LaMPSite 模型能够在没有 3D 蛋白质结构信息的情况下预测结合位点，与需要 3D 结构的基准方法相比具有竞争力的性能，这为药物发现提供了新的机会。

Dec, 2023

ProtLLM：一种蛋白质与语言相互交织的蛋白质语言模型，以蛋白质作为词的预训练

我们提出了 ProtLLM，这是一个通用的跨模态大语言模型，用于蛋白质中心和蛋白质语言任务。ProtLLM 具有独特的动态蛋白质装配机制，能够处理自然语言文本与任意数量的蛋白质交织在一起的复杂输入。此外，我们提出了基于蛋白质作为单词的语言建模方法来训练 ProtLLM。通过开发专门的蛋白质词汇表，我们使模型能够从大量候选项中预测不仅自然语言，还包括蛋白质。另外，我们构建了一个大规模的交织蛋白质 - 文本数据集，名为 InterPT，用于预训练。该数据集全面包含蛋白质注释等结构化数据源和生物研究论文等非结构化数据源，从而赋予 ProtLLM 理解蛋白质的重要知识。我们在经典的监督蛋白质中心任务上评估了 ProtLLM，并探索了其新颖的蛋白质语言应用。实验证明，ProtLLM 不仅在蛋白质中心任务上表现出卓越性能，并且在蛋白质语言任务上具有零 - shot 和上下文学习能力。

Feb, 2024

多尺度蛋白质语言模型用于统一分子建模

通过在多尺度编码切换的蛋白质序列上进行预训练，并利用多尺度位置编码来捕捉残基和原子之间的关系，ms-ESM（多尺度 ESM）提出了一种新颖的方法，实现了多尺度统一的分子建模，实验结果表明，ms-ESM 在蛋白质 - 分子任务方面超过了以前的方法，展示了蛋白质语言模型的全部利用，进一步的研究发现，通过统一的分子建模，ms-ESM 不仅获得了分子知识，还保留了对蛋白质的理解。

Mar, 2024

扩散语言模型是多功能的蛋白质学习器

该研究介绍了扩散蛋白质语言模型（DPLM），一种多功能的蛋白质语言模型，展示了对蛋白质序列具有强大的生成和预测能力。通过生成自监督离散扩散概率框架对进化规模的蛋白质序列进行可扩展的 DPLM 预训练，使 DPLM 展现出无条件生成结构合理、新颖且多样的蛋白质序列的能力。此外，DPLM 通过生成预训练使得其对蛋白质具有更好的理解，成为一种优秀的表示学习器，可以根据不同的预测任务进行微调，与 ESM2（Lin et al.，2022）相比具有较好的效果。此外，DPLM 可以根据需求进行定制，通过几种方式展示其条件生成的能力：（1）以部分肽段序列为条件，例如高成功率生成功能基序的脚手架；（2）以其他模态为条件，例如结构条件生成逆折叠；以及（3）通过插入式分类器指导将序列生成导向所需的属性，例如满足指定的二级结构。

Feb, 2024

MAS2HP: 一个在 2D HP 模型中预测蛋白质结构的多智能体系统

本研究提出了一种基于代理模型的新方法，结合预先定义的规则，利用人工智能技术和降低模型解决蛋白质结构预测问题。相较于其他算法，该方法在较短时间内可找到最优解，并且能够从指数级时间复杂度降为线性。

May, 2022