蛋白质语言模型与结构预测:联系与进展
利用蛋白质结构数据提升蛋白质语言模型的新框架,通过整合结构信息和结构提取模块,优化了预训练语言模型的自注意机制,此框架在蛋白质功能预测上表现优越,为蛋白质建模提供更有效和高效的方法。
Jan, 2024
该研究使用嵌入语言模型(ELMo)将蛋白质序列转化为数字向量表示,引入一种新颖的双向语言模型(bi-LM)以降低参数数量并使用单一路径进行预测,同时进行多任务学习以获取蛋白质序列的进化信息。
Aug, 2023
该研究总结了在蛋白质研究中使用语言模型的应用,包括设计新型人工蛋白质、使用非 Transformer 结构以及应用于定向进化方面。这些成果已经快速提升了蛋白质研究的发展和性能。
May, 2023
预测蛋白质的配体结合位点对于理解蛋白质功能和筛选潜在药物是一项基础而重要的任务。通过使用蛋白序列和配体分子图作为输入,LaMPSite 模型能够在没有 3D 蛋白质结构信息的情况下预测结合位点,与需要 3D 结构的基准方法相比具有竞争力的性能,这为药物发现提供了新的机会。
Dec, 2023
我们提出了 ProtLLM,这是一个通用的跨模态大语言模型,用于蛋白质中心和蛋白质语言任务。ProtLLM 具有独特的动态蛋白质装配机制,能够处理自然语言文本与任意数量的蛋白质交织在一起的复杂输入。此外,我们提出了基于蛋白质作为单词的语言建模方法来训练 ProtLLM。通过开发专门的蛋白质词汇表,我们使模型能够从大量候选项中预测不仅自然语言,还包括蛋白质。另外,我们构建了一个大规模的交织蛋白质 - 文本数据集,名为 InterPT,用于预训练。该数据集全面包含蛋白质注释等结构化数据源和生物研究论文等非结构化数据源,从而赋予 ProtLLM 理解蛋白质的重要知识。我们在经典的监督蛋白质中心任务上评估了 ProtLLM,并探索了其新颖的蛋白质语言应用。实验证明,ProtLLM 不仅在蛋白质中心任务上表现出卓越性能,并且在蛋白质语言任务上具有零 - shot 和上下文学习能力。
Feb, 2024
通过在多尺度编码切换的蛋白质序列上进行预训练,并利用多尺度位置编码来捕捉残基和原子之间的关系,ms-ESM(多尺度 ESM)提出了一种新颖的方法,实现了多尺度统一的分子建模,实验结果表明,ms-ESM 在蛋白质 - 分子任务方面超过了以前的方法,展示了蛋白质语言模型的全部利用,进一步的研究发现,通过统一的分子建模,ms-ESM 不仅获得了分子知识,还保留了对蛋白质的理解。
Mar, 2024
该研究介绍了扩散蛋白质语言模型(DPLM),一种多功能的蛋白质语言模型,展示了对蛋白质序列具有强大的生成和预测能力。通过生成自监督离散扩散概率框架对进化规模的蛋白质序列进行可扩展的 DPLM 预训练,使 DPLM 展现出无条件生成结构合理、新颖且多样的蛋白质序列的能力。此外,DPLM 通过生成预训练使得其对蛋白质具有更好的理解,成为一种优秀的表示学习器,可以根据不同的预测任务进行微调,与 ESM2(Lin et al.,2022)相比具有较好的效果。此外,DPLM 可以根据需求进行定制,通过几种方式展示其条件生成的能力:(1)以部分肽段序列为条件,例如高成功率生成功能基序的脚手架;(2)以其他模态为条件,例如结构条件生成逆折叠;以及(3)通过插入式分类器指导将序列生成导向所需的属性,例如满足指定的二级结构。
Feb, 2024
本研究提出了一种基于代理模型的新方法,结合预先定义的规则,利用人工智能技术和降低模型解决蛋白质结构预测问题。相较于其他算法,该方法在较短时间内可找到最优解,并且能够从指数级时间复杂度降为线性。
May, 2022