无偏的、通用的、高灵敏度的信号肽预测器与深度蛋白质语言模型

Dec, 2023

无偏的、通用的、高灵敏度的信号肽预测器与深度蛋白质语言模型

Unbiased organism-agnostic and highly sensitive signal peptide predictor with deep protein language model

Junbo Shen, Qinze Yu, Shenyang Chen, Qingxiong Tan, Jingcheng Li...

TL;DR用计算方法准确识别信号肽，尤其对于元基因组数据分析，提出了一种基于蛋白质语言模型的信号肽分类和切割位点预测的深度学习方法，并应用标签分布感知边界损失处理数据不平衡问题，并利用蛋白质的进化信息丰富表示来克服物种信息依赖。

Abstract

signal peptide (SP) is a short peptide located in the N-terminus of proteins. It is essential to target and transfer transmembrane and secreted proteins to correct positions. Compared with traditional experimental methods to identify signal peptides, →

signal peptide computational methods protein language models classification cleavage site prediction

发现论文，激发创造

蛋白质语言模型与结构预测：联系与进展

本文系统地概述了蛋白质语言模型在蛋白质结构预测中的应用和方法，介绍了网络架构、预训练策略、常用蛋白质数据库等方面的最新进展和挑战，并展望了未来发展方向。

Nov, 2022

使用 Attention U-Net 和 ProtTrans 蛋白质语言模型进行蛋白质内在无序预测

使用蛋白质语言模型 ProtTrans 构建的基于 Attention U-Net 卷积神经网络的蛋白质内在无序预测器 DisorderUnetLM 在预测蛋白质内在无序区域方面达到了最好的结果，排名 CAIP-2 基准的 9th（ROC-AUC 为 0.924）和 Disorder-NOX 子集的 1st（ROC-AUC 为 0.844），显示出在即将到来的 CAID-3 挑战中具有良好的性能。

Apr, 2024

基于结构信息的蛋白质语言模型

通过将远程同源检测集成到蛋白质语言模型中，我们实现了将结构信息融入蛋白质语言模型，从而在蛋白质功能预测任务中提高了功能注释准确性。

Feb, 2024

PEvoLM：蛋白质序列演化信息语言模型

该研究使用嵌入语言模型（ELMo）将蛋白质序列转化为数字向量表示，引入一种新颖的双向语言模型（bi-LM）以降低参数数量并使用单一路径进行预测，同时进行多任务学习以获取蛋白质序列的进化信息。

Aug, 2023

赋予蛋白质语言模型结构知识

利用蛋白质结构数据提升蛋白质语言模型的新框架，通过整合结构信息和结构提取模块，优化了预训练语言模型的自注意机制，此框架在蛋白质功能预测上表现优越，为蛋白质建模提供更有效和高效的方法。

Jan, 2024

轻量级对比蛋白质结构序列变换

本文提出了一种用于蛋白质结构表示预训练的新型无监督方法，该方法利用现有的预训练语言模型通过无监督的对比对齐指导结构模型的学习，并提出了一种自监督的结构约束来进一步学习结构的内部信息。实验结果表明，该方法的性能在多个任务和特定数据集上均表现出卓越的优越性。

Mar, 2023

超越 ESM2: 借助高效聚类的图增强蛋白质序列建模

本研究使用 ESM2 最先进的蛋白质语言模型，并结合蛋白质家族分类和基于社区传播的聚类算法，改善了全局蛋白质表示和局部氨基酸准确性，从而大幅提升蛋白质表达质量，并在多个下游实验中取得了最先进的结果。

Apr, 2024

pLMFPPred: 一种准确预测功能肽的新方法，结合了从预训练蛋白质语言模型中嵌入和不平衡学习

利用基于蛋白质语言模型的嵌入（ESM-2），我们开发了一个名为 pLMFPPred（蛋白质语言模型功能肽预测器）的工具，用于预测功能性肽并识别有毒肽，同时引入了 SMOTE-TOMEK 数据合成采样和 Shapley 值基于特征选择技术以缓解数据不平衡问题和减少计算成本。在经过验证的独立测试集上，pLMFPPred 分别取得了 0.974、0.99 和 0.974 的准确率、曲线下面积（AUC-ROC）和 F1-Score 值，比当前用于预测功能性肽的方法表现更优。实验结果表明，提出的方法（pLMFPPred）在准确性、曲线下面积（AUC-ROC）和 F1-Score 等方面具有更好的性能，是一种用于预测功能性肽的新的计算方法。

Sep, 2023

利用外部知识进行低同源蛋白质二级结构预测的自适应残基分布融合

本文中，我们介绍了一种基于自我监督知识的低同源蛋白质次级结构预测方法，利用残基分布、BERT 特征和残基 - 注意力相融合技术，避免了特征输入不足和噪声扰动问题，此方法在 BC40 数据集中对极低同源情况下具有显著的预测效果。

Aug, 2021

深度学习驱动的串联质谱数据库搜索中减少数据偏倚的方法

DeepSearch 是首个基于深度学习的串联质谱数据库搜索方法，通过改进的转换器编码器 - 解码器架构和对比学习框架，采用数据驱动方法评分肽谱匹配，并以零样本方式对变量翻译修饰进行建模，验证了其准确性和鲁棒性。

May, 2024