蛋白质多尺度表征学习
蛋白质表示学习是一个具有挑战性的任务,旨在从其氨基酸序列中捕获蛋白质的结构和功能。本文提出了一种神经聚类框架,通过考虑蛋白质的一级和三级结构信息来自动发现蛋白质的关键部分,在四个蛋白质相关任务上取得了最先进的表现。
Mar, 2024
通过将蛋白质表示为三维网格表面并将其与基于图的方法相结合,我们提出了一种综合性的框架,融合了表面表示和图像的学习方法,能够在所有测试任务中取得最先进的结果。
Sep, 2023
本文介绍 3D 图结构的蛋白质表示学习。使用蛋白质结构构建 3D 图,循序渐进地学习蛋白质的不同层级表示,并提出了一种新的层次图模型 ProNet,以便更好的分类和表征蛋白质。实验结果表明,ProNet 性能优于现有方法。
Jul, 2022
本文提出了一种利用图神经网络和自然语言大模型生成结构和序列感知型蛋白质表示的新框架,并将其与传统的基于结构对齐的方法相比较,证明了该方法在比较蛋白质结构和蛋白质结构分类任务中的优越性能。
Jun, 2023
在结构生物信息学中,蛋白质间相互作用的预测是最重要且具有挑战性的问题之一。本文提出了一种基于深度学习技术的分层化化学和几何特征交互网络(HCGNet),通过建立化学特征和几何特征之间的分层交互来进行蛋白质表面分析,并通过大量实验证明我们的方法在位点预测任务和相互作用匹配任务上优于之前的最先进方法,分别提高了 2.3% 和 3.2%。
Jan, 2024
本文提出了利用 3D 蛋白结构进行预训练的蛋白质表示方法,并通过多视图对比学习和自我预测任务,实现了对蛋白质的编码。实验结果表明,该方法不仅可以比现有的基于序列的方法更有效地预测蛋白质的功能和褶叠分类,而且使用的预训练数据更少。
Mar, 2022
该研究综述了蛋白质表征学习的发展及其模型架构、先验任务、下游应用等方面,介绍了序列、结构、序列 - 结构配合等三类现有方法,并探讨了蛋白质表征学习存在的技术挑战和发展方向。
Dec, 2022
蛋白质表示学习旨在从蛋白质数据库中提取知识,以应用于各种蛋白质相关的下游任务,我们引入了新颖的不对称多模态掩码自编码器(AMMA),利用统一多模态编码器将蛋白质序列、结构和功能三种关键形态集成为统一的表示空间,通过不对称解码器确保序列潜在特征反映结构和功能信息,实验表明 AMMA 在学习展现良好间模态关系的蛋白质表示方面具有极高的效果,进而使其在各种蛋白质相关的下游任务中发挥作用。
Apr, 2024
我们提出了一种新颖的结构感知的蛋白自监督学习方法,利用图神经网络模型预训练,从残基距离和二面角的角度考虑自监督学习任务,借鉴预训练蛋白语言模型的序列信息结合专门设计的 GNN 模型的结构信息进行伪二级优化,实验证明该方法在多个监督型下游任务中的有效性。
Apr, 2022
本文提出了一种新的预训练框架,它将用于蛋白质主体结构和三级结构的序列和几何分析器级联,模拟野生型蛋白质的自然选择并评估变体的效果,以指导遗传突变方向,实现所需特征,提出了一种新的变体影响预测方法,其预测结果在单点和深部变异方面表现良好。
Jun, 2023