肽序列和图形路径的联合建模
本研究提出了一种多模态对比扩散模型(MMCD),将序列和结构两种模态在扩散框架中融合,旨在共同生成新的多肽序列和结构。MMCD 通过构建序列模态和结构模态的扩散模型,并在每个扩散步骤中采用多模态对比学习策略,通过交叉对比和内部对比来捕捉两种模态之间的一致性,提高模型性能。广泛的实验表明,MMCD 在生成治疗性肽段方面优于其他最先进的深度生成方法,包括抗菌 / 抗癌评分、多样性和肽段对接等多个指标。
Dec, 2023
通过学习可解释、可插入、可扩展的蛋白质提示,将任务相关知识注入预训练蛋白质模型(PTPMs),从而使得 PTPMs 能够生成任务感知的表示,进而在多任务设置下,学习同时序列与交互构象提示的构象感知预训练蛋白质模型,实验证明这种方法显著提高了 PTPMs 在需要构象知识的任务上的性能。
Feb, 2022
该研究介绍了一种新颖的多视角对比学习框架 PepHarmony,用于序列化的肽编码任务,它创新性地将序列和结构级别信息结合到序列级编码模块中,并通过对比学习捕捉了肽序列和结构之间的复杂关系。此框架对于肽表示具有显著的能力,并为肽药物发现和肽工程的未来应用提供了有价值的见解。
Jan, 2024
在分子属性预测的算法解决方案中,神经机器技术的进步导致了一系列算法解决方案,其中神经网络应用于计算分子指纹或专家制作的描述符以及构造学习分子表示的图卷积神经网络最为有效,这项研究进行了广泛的基准测试,并提出了优于现有模型的图卷积模型的实证发现。
Apr, 2019
蛋白质表示学习旨在从蛋白质数据库中提取知识,以应用于各种蛋白质相关的下游任务,我们引入了新颖的不对称多模态掩码自编码器(AMMA),利用统一多模态编码器将蛋白质序列、结构和功能三种关键形态集成为统一的表示空间,通过不对称解码器确保序列潜在特征反映结构和功能信息,实验表明 AMMA 在学习展现良好间模态关系的蛋白质表示方面具有极高的效果,进而使其在各种蛋白质相关的下游任务中发挥作用。
Apr, 2024
ContraNovo 算法是一种创新算法,通过对质谱和肽段之间的关系进行对比学习,并将质量信息纳入肽段解码,从而更高效地解决肽段测序问题,并在两个基准数据集上得到了可靠的结果,显示出其在提升新肽段测序中的潜力。
Dec, 2023
本研究使用 Transformers 和 Large Language Models (LLMs) 开发了 GPCR-BERT 模型,用于理解 G 蛋白偶联受体 (GPCRs) 的顺序设计,揭示了氨基酸序列、配体选择性和构象模体之间的关系,并通过对模型的注意权重和隐藏状态的解释,实现了在掩蔽氨基酸类型方面的精确预测,同时分析了三维结构中的高阶相互作用。
Oct, 2023
本文介绍了一种利用无监督对比学习来学习有意义的蛋白质结构表示的框架,其利用蛋白质数据银行中的蛋白质,展示了这些表示可以用于解决多种任务,如蛋白质功能预测、蛋白质折叠分类、结构相似性预测和蛋白质配体结合亲和力预测。此外,作者还表明,使用该算法预训练的微调网络在许多任务中取得了新的最优结果。
May, 2022
利用基于语言模型的灵活深度学习策略,基于一个完全基于提示的模型,将 transformer 和图卷积架构集成到因果多头图机制中,实现一个生成预训练模型,用于预测蛋白质的二级结构内容、蛋白质可溶性和蛋白质测序等任务,并可用于设计具有这些特性的蛋白质,这个模型展现了多任务和协同作用的应用价值。
May, 2023