深度学习驱动的串联质谱数据库搜索中减少数据偏倚的方法

May, 2024

深度学习驱动的串联质谱数据库搜索中减少数据偏倚的方法

Towards Less Biased Data-driven Scoring with Deep Learning-Based End-to-end Database Search in Tandem Mass Spectrometry

Yonghan Yu, Ming Li

TL;DRDeepSearch 是首个基于深度学习的串联质谱数据库搜索方法，通过改进的转换器编码器 - 解码器架构和对比学习框架，采用数据驱动方法评分肽谱匹配，并以零样本方式对变量翻译修饰进行建模，验证了其准确性和鲁棒性。

Abstract

peptide identification in mass spectrometry-based proteomics is crucial for understanding protein function and dynamics. Traditional

peptide identification mass spectrometry proteomics deepsearch database search

发现论文，激发创造

NovoBench: 基于深度学习的蛋白质组学中 De Novo 肽段测序方法的基准测试

本文介绍了第一个统一的鲁棒性肽段测序标准 NovoBench，该标准包括多样的质谱数据、整合模型和全面的评估指标，并通过对各种因素的评估，揭示了许多有启发性的发现，为未来的发展开辟了新的可能性。

Jun, 2024

生成模型的梯度用于串联质谱的鉴别分析提升

本文基于生成对抗生成模型的对数似然梯度，介绍利用一种基于动态贝叶斯网络（DBN）的核判别分类器改进 Tandem Mass Spectrometry 中蛋白质识别的方法，通过引入 Theseus DBN 搜索算法，实现了自动学习模型参数的功能，并在评估数据集上取得了最优效果的结果。

Sep, 2019

基于 Transformer 的数据独立获得质谱的新肽碱基序列

Casanovo-DIA 是一种基于 Transformer 架构的深度学习模型，能够从 DIA 质谱数据中解析肽段序列，并显著提高了已有方法的精度和召回率，在氨基酸水平上精度提高 15.14% 至 34.8%，召回率提高 11.62% 至 31.94%，在肽段水平上精度提高 59% 至 81.36%。将 DIA 数据与 Casanovo-DIA 模型集成能够大大提升对生物样本的肽段发现和全面性分析。

Feb, 2024

序列与图形编码下肽自组装的高效预测

这项研究使用先进的深度学习模型对肽的编码进行了全面的基准分析，为肽相关的各种预测提供指导，如等电点、水合自由能等。

Jul, 2023

DeepGS: 用于药物靶点结合亲和力预测的图和序列的深度表示学习

本研究介绍了一种使用深度神经网络从氨基酸和 SMILES 序列中提取局部化学上下文并从药物中提取分子结构的端到端学习框架 DeepGS，并使用先进的嵌入技术 Smi2Vec 和 Prot2Vec 对象进行符号数据处理，相比 KronRLS、SimBoost、DeepDTA 和 DeepCPI 等现有模型，实验结果显示出 DeepGS 的优越性和竞争力。

Mar, 2020

AdaNovo：基于条件互信息的自适应全新肽段测序

AdaNovo 是一个新颖的框架，通过计算光谱与每个氨基酸 / 肽之间的条件互信息（CMI），利用 CMI 进行自适应模型训练，以解决串级质谱在鉴定具有后转录修饰的氨基酸时遇到的挑战，并且在鉴定肽和抗数据噪声方面表现出色。

Mar, 2024

ContraNovo: 提高全新多肽测序的对比学习方法

ContraNovo 算法是一种创新算法，通过对质谱和肽段之间的关系进行对比学习，并将质量信息纳入肽段解码，从而更高效地解决肽段测序问题，并在两个基准数据集上得到了可靠的结果，显示出其在提升新肽段测序中的潜力。

Dec, 2023

PepGB: 通过图神经网络促进肽类药物发现

利用深度学习技术，本文提出了 PepGB 和 diPepGB 两个深度学习框架，用于预测肽蛋白相互作用关系，以促进肽类早期药物发现，提高目标识别和化合物发现过程中的效率。

Jan, 2024

深度学习提升基于对接的虚拟筛选

本文介绍了一种基于深度学习的虚拟筛选方法，使用原子和氨基酸嵌入来提取蛋白质 - 配体复合物的相关特征，并利用一种卷积层处理化合物作为原子上下文的分散向量表示以提高其中的性能。通过在 DUD 中使用 AutoDockVina1.1.2 和 Dock6.6 的输出进行严格评估，本文方法在 AUC ROC 和富集因子方面优于两个对照组，并在 DUD 使用 40 个受体的情况下实现了最好的 AUC ROC 值 0.81。

Aug, 2016

用于代谢物注释的集成光谱预测（ESP）模型

本文介绍了一种基于机器学习和神经网络的代谢物注释模型 ——Ensemble Spectral Prediction (ESP)，该模型通过加权 MLP 和 GNN 光谱预测器的输出来生成查询分子的光谱预测，可提高注释能力的 41% 和 30%，是目前神经网络方法中性能最优秀的模型之一，并在实验中验证了候选分子的相似性和数量对注释性能的影响。

Mar, 2022