本研究提出了一种基于表征学习的框架,将蛋白质序列映射到表示蛋白质结构信息的序列向量中,并通过双向 LSTM 模型和全局结构相似度以及单个蛋白质残基接触映射的反馈机制进行训练,实现了蛋白质序列在预测结构相似性方面的多任务学习,而且该方法在跨膜域预测方面也取得了优异的表现。
Feb, 2019
我们提出了一种新颖的结构感知的蛋白自监督学习方法,利用图神经网络模型预训练,从残基距离和二面角的角度考虑自监督学习任务,借鉴预训练蛋白语言模型的序列信息结合专门设计的 GNN 模型的结构信息进行伪二级优化,实验证明该方法在多个监督型下游任务中的有效性。
Apr, 2022
本文提出了一种新的 GNN 网络架构 LSPE,通过引入可学习的位置编码对节点的结构表达和位置表达进行解耦,应用在分子数据集上的实验结果表明 LSPE 能显著提高模型性能。
Oct, 2021
通过引入基于几何向量感知器的图神经网络,在大型生物分子的 3D 结构上进行学习并利用其图结构和几何方面,从而在蛋白结构的质量评估和计算蛋白质设计两个重要问题上实现了优化,改进了现有各类体系结构,其中包括最先进的基于图的和基于体素的方法。
Sep, 2020
蛋白质表示学习是一个具有挑战性的任务,旨在从其氨基酸序列中捕获蛋白质的结构和功能。本文提出了一种神经聚类框架,通过考虑蛋白质的一级和三级结构信息来自动发现蛋白质的关键部分,在四个蛋白质相关任务上取得了最先进的表现。
Mar, 2024
本研究通过预训练三维蛋白质结构的图神经网络,利用蛋白质的地理层次结构和亚图与全球结构的关系,提出了一种新的自我监督方法,能够显著提高三维图神经网络在不同蛋白质分类任务中的性能表现。
Jun, 2024
基于同源图网络编码器和节点相似性构建正样本,我们提出了融合上下文信息和结构信息的 k-mer 嵌入方法,用于鲁棒的序列表示,从而在编辑距离近似和最接近字符串检索任务中,始终优于先前技术。
Dec, 2023
本文提出了利用 3D 蛋白结构进行预训练的蛋白质表示方法,并通过多视图对比学习和自我预测任务,实现了对蛋白质的编码。实验结果表明,该方法不仅可以比现有的基于序列的方法更有效地预测蛋白质的功能和褶叠分类,而且使用的预训练数据更少。
Mar, 2022
本研究探讨使用图神经网络 (GNN) 表示来增强预训练语言模型 (PLMs) 的上下文表示,用于从长文档中提取关键词。我们构建了文本的共现图,并使用在边预测任务上训练的图卷积网络 (GCN) 进行嵌入。我们提出了一种增强序列标记体系结构来增强 PLM 嵌入与图嵌入。在基准数据集上评估,我们证明了使用图嵌入增强 PLM 在长文档上的性能优于现有最先进模型,并在所有数据集上显示了 F1 分数的显著改进。我们的研究突显了 GNN 表示的潜力,作为改善从长文档中提取关键词时 PLM 性能的补充方法。
May, 2023
OntoProtein 是第一个将 GO 结构应用于蛋白质预训练的通用框架,通过与知识图谱和蛋白质嵌入的联合优化,能够优化蛋白质表示并在蛋白质相互作用和蛋白质功能预测方面实现更好的性能。
Jan, 2022