本文系统地概述了蛋白质语言模型在蛋白质结构预测中的应用和方法,介绍了网络架构、预训练策略、常用蛋白质数据库等方面的最新进展和挑战,并展望了未来发展方向。
Nov, 2022
使用大规模的语言模型,可以从蛋白质序列中准确捕捉到进化信息,并在标记层和序列层任务中取得了显着的改进。
Aug, 2021
利用蛋白质结构数据提升蛋白质语言模型的新框架,通过整合结构信息和结构提取模块,优化了预训练语言模型的自注意机制,此框架在蛋白质功能预测上表现优越,为蛋白质建模提供更有效和高效的方法。
Jan, 2024
本研究提出了一种基于表征学习的框架,将蛋白质序列映射到表示蛋白质结构信息的序列向量中,并通过双向 LSTM 模型和全局结构相似度以及单个蛋白质残基接触映射的反馈机制进行训练,实现了蛋白质序列在预测结构相似性方面的多任务学习,而且该方法在跨膜域预测方面也取得了优异的表现。
Feb, 2019
本研究使用 ESM2 最先进的蛋白质语言模型,并结合蛋白质家族分类和基于社区传播的聚类算法,改善了全局蛋白质表示和局部氨基酸准确性,从而大幅提升蛋白质表达质量,并在多个下游实验中取得了最先进的结果。
Apr, 2024
本文研究探讨了 ESM-1b、MSA-Transformer 和 Evoformer 等三种常用蛋白质语言模型的表征能力,重点关注 Evoformer 在蛋白功能预测方面的表现,旨在回答三个关键问题:(i)AlphaFold 中的 Evoformer 能否产生适合预测蛋白功能的表征?(ii)如果可以,Evoformer 能否取代 ESM-1b 和 MSA-Transformer?(iii)这些 PLMs 在多大程度上依赖于与进化有关的蛋白数据?在这方面,它们是否互补?通过实证研究和新的见解和结论进行比较。附有完整的代码和数据集,可供复现。
Jun, 2022
我们提出了一种支持生物序列机器用于蛋白质分类的模型,该模型通过使用机器学习算法来帮助和引导生物实验,在生物技术应用中提供了重要的洞察。该研究展示了在蛋白质分类领域的最新工作,并为生物序列分类领域的新方向铺平了道路,对于定制的平台开发具有积极意义。
Aug, 2023
通过在多尺度编码切换的蛋白质序列上进行预训练,并利用多尺度位置编码来捕捉残基和原子之间的关系,ms-ESM(多尺度 ESM)提出了一种新颖的方法,实现了多尺度统一的分子建模,实验结果表明,ms-ESM 在蛋白质 - 分子任务方面超过了以前的方法,展示了蛋白质语言模型的全部利用,进一步的研究发现,通过统一的分子建模,ms-ESM 不仅获得了分子知识,还保留了对蛋白质的理解。
Mar, 2024
通过训练两个自回归模型和四个自编码器模型,使用生物信息数据培训出来的语言模型(Language Models)能够在低推断开销下完成新的前沿预测,例如使用蛋白 LM - 嵌入 (ProtT5) 能够在无需使用进化信息的情况下,成功地进行氨基酸序列每残基预测,并出现在这个 https URL。
Jul, 2020
利用大型语言模型(LLM),我们引入了一种 ESM 辅助高效方法,将蛋白质序列和结构特征整合在一起,以预测单点突变引起的蛋白质热稳定性变化,并且我们设计了一个经过细致筛选的数据集,以避免数据泄漏,以便更公平地进行模型比较。
Dec, 2023