蛋白质表征学习的聚类

CVPRMar, 2024

Clustering for Protein Representation Learning

Ruijie Quan, Wenguan Wang, Fan Ma, Hehe Fan, Yi Yang

TL;DR蛋白质表示学习是一个具有挑战性的任务，旨在从其氨基酸序列中捕获蛋白质的结构和功能。本文提出了一种神经聚类框架，通过考虑蛋白质的一级和三级结构信息来自动发现蛋白质的关键部分，在四个蛋白质相关任务上取得了最先进的表现。

Abstract

protein representation learning is a challenging task that aims to capture the structure and function of proteins from their amino acid sequences. Previous methods largely ignored the fact that not all amino acid

protein representation learning neural clustering framework amino acid sequences protein structure state-of-the-art performance

发现论文，激发创造

3D 蛋白质结构的对比表示学习

本文介绍了一种利用无监督对比学习来学习有意义的蛋白质结构表示的框架，其利用蛋白质数据银行中的蛋白质，展示了这些表示可以用于解决多种任务，如蛋白质功能预测、蛋白质折叠分类、结构相似性预测和蛋白质配体结合亲和力预测。此外，作者还表明，使用该算法预训练的微调网络在许多任务中取得了新的最优结果。

May, 2022

蛋白质多尺度表征学习

本文提出了一种多尺度图构建方法 ——HoloProt，可以连接蛋白表面、结构和序列，并在不同任务上进行了测试，包括配基结合亲和力回归和蛋白质功能预测分类。该模型具有良好的稳定性和可靠性，并且在减少参数数量的情况下可以获得与现有模型相当的性能。

Apr, 2022

蛋白质结构感知的自监督学习

我们提出了一种新颖的结构感知的蛋白自监督学习方法，利用图神经网络模型预训练，从残基距离和二面角的角度考虑自监督学习任务，借鉴预训练蛋白语言模型的序列信息结合专门设计的 GNN 模型的结构信息进行伪二级优化，实验证明该方法在多个监督型下游任务中的有效性。

Apr, 2022

几何结构预训练下的蛋白表征学习

本文提出了利用 3D 蛋白结构进行预训练的蛋白质表示方法，并通过多视图对比学习和自我预测任务，实现了对蛋白质的编码。实验结果表明，该方法不仅可以比现有的基于序列的方法更有效地预测蛋白质的功能和褶叠分类，而且使用的预训练数据更少。

Mar, 2022

蛋白质图形的神经嵌入

本文提出了一种利用图神经网络和自然语言大模型生成结构和序列感知型蛋白质表示的新框架，并将其与传统的基于结构对齐的方法相比较，证明了该方法在比较蛋白质结构和蛋白质结构分类任务中的优越性能。

Jun, 2023

蛋白质表征学习综述：回顾与展望

该研究综述了蛋白质表征学习的发展及其模型架构、先验任务、下游应用等方面，介绍了序列、结构、序列 - 结构配合等三类现有方法，并探讨了蛋白质表征学习存在的技术挑战和发展方向。

Dec, 2022

通过完整的三维图网络学习分层蛋白质表示

本文介绍 3D 图结构的蛋白质表示学习。使用蛋白质结构构建 3D 图，循序渐进地学习蛋白质的不同层级表示，并提出了一种新的层次图模型 ProNet，以便更好的分类和表征蛋白质。实验结果表明，ProNet 性能优于现有方法。

Jul, 2022

利用结构信息学习蛋白质序列嵌入

本研究提出了一种基于表征学习的框架，将蛋白质序列映射到表示蛋白质结构信息的序列向量中，并通过双向 LSTM 模型和全局结构相似度以及单个蛋白质残基接触映射的反馈机制进行训练，实现了蛋白质序列在预测结构相似性方面的多任务学习，而且该方法在跨膜域预测方面也取得了优异的表现。

Feb, 2019

捕捉蛋白质序列 - 结构 - 功能关系的蛋白质表示学习

蛋白质表示学习旨在从蛋白质数据库中提取知识，以应用于各种蛋白质相关的下游任务，我们引入了新颖的不对称多模态掩码自编码器（AMMA），利用统一多模态编码器将蛋白质序列、结构和功能三种关键形态集成为统一的表示空间，通过不对称解码器确保序列潜在特征反映结构和功能信息，实验表明 AMMA 在学习展现良好间模态关系的蛋白质表示方面具有极高的效果，进而使其在各种蛋白质相关的下游任务中发挥作用。

Apr, 2024

用层级旋转等变神经网络选择蛋白质复合物的结构模型

本文介绍了一种基于机器学习的方法，利用 3D 原子坐标来直接标识蛋白质复合物的准确模型，提高准确模型的识别，也可以用于绝对预测准确结构模型的方法。

Jun, 2020