无偏的、通用的、高灵敏度的信号肽预测器与深度蛋白质语言模型
本文系统地概述了蛋白质语言模型在蛋白质结构预测中的应用和方法,介绍了网络架构、预训练策略、常用蛋白质数据库等方面的最新进展和挑战,并展望了未来发展方向。
Nov, 2022
使用蛋白质语言模型 ProtTrans 构建的基于 Attention U-Net 卷积神经网络的蛋白质内在无序预测器 DisorderUnetLM 在预测蛋白质内在无序区域方面达到了最好的结果,排名 CAIP-2 基准的 9th(ROC-AUC 为 0.924)和 Disorder-NOX 子集的 1st(ROC-AUC 为 0.844),显示出在即将到来的 CAID-3 挑战中具有良好的性能。
Apr, 2024
该研究使用嵌入语言模型(ELMo)将蛋白质序列转化为数字向量表示,引入一种新颖的双向语言模型(bi-LM)以降低参数数量并使用单一路径进行预测,同时进行多任务学习以获取蛋白质序列的进化信息。
Aug, 2023
利用蛋白质结构数据提升蛋白质语言模型的新框架,通过整合结构信息和结构提取模块,优化了预训练语言模型的自注意机制,此框架在蛋白质功能预测上表现优越,为蛋白质建模提供更有效和高效的方法。
Jan, 2024
本文提出了一种用于蛋白质结构表示预训练的新型无监督方法,该方法利用现有的预训练语言模型通过无监督的对比对齐指导结构模型的学习,并提出了一种自监督的结构约束来进一步学习结构的内部信息。实验结果表明,该方法的性能在多个任务和特定数据集上均表现出卓越的优越性。
Mar, 2023
本研究使用 ESM2 最先进的蛋白质语言模型,并结合蛋白质家族分类和基于社区传播的聚类算法,改善了全局蛋白质表示和局部氨基酸准确性,从而大幅提升蛋白质表达质量,并在多个下游实验中取得了最先进的结果。
Apr, 2024
利用基于蛋白质语言模型的嵌入(ESM-2),我们开发了一个名为 pLMFPPred(蛋白质语言模型功能肽预测器)的工具,用于预测功能性肽并识别有毒肽,同时引入了 SMOTE-TOMEK 数据合成采样和 Shapley 值基于特征选择技术以缓解数据不平衡问题和减少计算成本。在经过验证的独立测试集上,pLMFPPred 分别取得了 0.974、0.99 和 0.974 的准确率、曲线下面积(AUC-ROC)和 F1-Score 值,比当前用于预测功能性肽的方法表现更优。实验结果表明,提出的方法(pLMFPPred)在准确性、曲线下面积(AUC-ROC)和 F1-Score 等方面具有更好的性能,是一种用于预测功能性肽的新的计算方法。
Sep, 2023
本文中,我们介绍了一种基于自我监督知识的低同源蛋白质次级结构预测方法,利用残基分布、BERT 特征和残基 - 注意力相融合技术,避免了特征输入不足和噪声扰动问题,此方法在 BC40 数据集中对极低同源情况下具有显著的预测效果。
Aug, 2021
DeepSearch 是首个基于深度学习的串联质谱数据库搜索方法,通过改进的转换器编码器 - 解码器架构和对比学习框架,采用数据驱动方法评分肽谱匹配,并以零样本方式对变量翻译修饰进行建模,验证了其准确性和鲁棒性。
May, 2024