该综述总结了近年来将深度学习技术应用于蛋白质结构建模及设计问题的最新进展,讨论了已经出现和需解决的挑战,针对该领域提出了许多有益的见解。
Jul, 2020
通过训练两个自回归模型和四个自编码器模型,使用生物信息数据培训出来的语言模型(Language Models)能够在低推断开销下完成新的前沿预测,例如使用蛋白 LM - 嵌入 (ProtT5) 能够在无需使用进化信息的情况下,成功地进行氨基酸序列每残基预测,并出现在这个 https URL。
该研究总结了在蛋白质研究中使用语言模型的应用,包括设计新型人工蛋白质、使用非 Transformer 结构以及应用于定向进化方面。这些成果已经快速提升了蛋白质研究的发展和性能。
May, 2023
通过将远程同源检测集成到蛋白质语言模型中,我们实现了将结构信息融入蛋白质语言模型,从而在蛋白质功能预测任务中提高了功能注释准确性。
Feb, 2024
利用大型语言模型自动从相关科学文献中提取知识,研究识别蛋白质相互作用、通路和基因调控关系的任务效果,并评估不同模型的性能,讨论了该方法的未来机遇和挑战。
Jul, 2023
利用蛋白质结构数据提升蛋白质语言模型的新框架,通过整合结构信息和结构提取模块,优化了预训练语言模型的自注意机制,此框架在蛋白质功能预测上表现优越,为蛋白质建模提供更有效和高效的方法。
Jan, 2024
该研究使用嵌入语言模型(ELMo)将蛋白质序列转化为数字向量表示,引入一种新颖的双向语言模型(bi-LM)以降低参数数量并使用单一路径进行预测,同时进行多任务学习以获取蛋白质序列的进化信息。
Aug, 2023
本文系统地概述了蛋白质语言模型在蛋白质结构预测中的应用和方法,介绍了网络架构、预训练策略、常用蛋白质数据库等方面的最新进展和挑战,并展望了未来发展方向。
Nov, 2022
通过整合前期训练模型和预训练的语言模型,本研究提出了 ProteinLMDataset 数据集和 ProteinLMBench 基准数据集,用于提升大型语言模型在蛋白质序列理解方面的能力,并通过实验证明其在蛋白质理解能力方面超越了 GPT-4。
Jun, 2024
综述介绍了利用深度学习模型分析蛋白质相互作用的多样性方法,包括基于生物物理学知识的模型、表示学习、几何深度学习和生成模型,并指出了面临的挑战和新的研究方向。
Oct, 2023