利用蛋白质结构数据提升蛋白质语言模型的新框架,通过整合结构信息和结构提取模块,优化了预训练语言模型的自注意机制,此框架在蛋白质功能预测上表现优越,为蛋白质建模提供更有效和高效的方法。
Jan, 2024
我们提出了一种新颖的结构感知的蛋白自监督学习方法,利用图神经网络模型预训练,从残基距离和二面角的角度考虑自监督学习任务,借鉴预训练蛋白语言模型的序列信息结合专门设计的 GNN 模型的结构信息进行伪二级优化,实验证明该方法在多个监督型下游任务中的有效性。
Apr, 2022
本文提出了一种用于蛋白质结构表示预训练的新型无监督方法,该方法利用现有的预训练语言模型通过无监督的对比对齐指导结构模型的学习,并提出了一种自监督的结构约束来进一步学习结构的内部信息。实验结果表明,该方法的性能在多个任务和特定数据集上均表现出卓越的优越性。
Mar, 2023
使用大规模的语言模型,可以从蛋白质序列中准确捕捉到进化信息,并在标记层和序列层任务中取得了显着的改进。
Aug, 2021
本文系统地概述了蛋白质语言模型在蛋白质结构预测中的应用和方法,介绍了网络架构、预训练策略、常用蛋白质数据库等方面的最新进展和挑战,并展望了未来发展方向。
Nov, 2022
本文提出了一种新的预训练框架,它将用于蛋白质主体结构和三级结构的序列和几何分析器级联,模拟野生型蛋白质的自然选择并评估变体的效果,以指导遗传突变方向,实现所需特征,提出了一种新的变体影响预测方法,其预测结果在单点和深部变异方面表现良好。
Jun, 2023
本文提出了利用 3D 蛋白结构进行预训练的蛋白质表示方法,并通过多视图对比学习和自我预测任务,实现了对蛋白质的编码。实验结果表明,该方法不仅可以比现有的基于序列的方法更有效地预测蛋白质的功能和褶叠分类,而且使用的预训练数据更少。
Mar, 2022
InstructProtein 是一种具备双向生成能力的语言模型,用于预测蛋白质的功能描述并通过自然语言促使蛋白质序列生成,通过预训练和基于知识图谱的指导数据生成框架,解决了蛋白质序列理解和人类语言理解之间的差距。
Oct, 2023
本研究提出了一种基于表征学习的框架,将蛋白质序列映射到表示蛋白质结构信息的序列向量中,并通过双向 LSTM 模型和全局结构相似度以及单个蛋白质残基接触映射的反馈机制进行训练,实现了蛋白质序列在预测结构相似性方面的多任务学习,而且该方法在跨膜域预测方面也取得了优异的表现。
Feb, 2019
本文介绍了一种利用无监督对比学习来学习有意义的蛋白质结构表示的框架,其利用蛋白质数据银行中的蛋白质,展示了这些表示可以用于解决多种任务,如蛋白质功能预测、蛋白质折叠分类、结构相似性预测和蛋白质配体结合亲和力预测。此外,作者还表明,使用该算法预训练的微调网络在许多任务中取得了新的最优结果。
May, 2022