蛋白质表征学习综述：回顾与展望

Dec, 2022

蛋白质表征学习综述：回顾与展望

A Survey on Protein Representation Learning: Retrospect and Prospect

Lirong Wu, Yufei Huang, Haitao Lin, Stan Z. Li

TL;DR该研究综述了蛋白质表征学习的发展及其模型架构、先验任务、下游应用等方面，介绍了序列、结构、序列 - 结构配合等三类现有方法，并探讨了蛋白质表征学习存在的技术挑战和发展方向。

Abstract

proteins are fundamental biological entities that play a key role in life activities. The amino acid sequences of proteins can be folded into stable 3D structures in the real physicochemical world, forming a spec

proteins artificial intelligence representation learning sequence-structure data bioinformatics

发现论文，激发创造

3D 蛋白质结构的对比表示学习

本文介绍了一种利用无监督对比学习来学习有意义的蛋白质结构表示的框架，其利用蛋白质数据银行中的蛋白质，展示了这些表示可以用于解决多种任务，如蛋白质功能预测、蛋白质折叠分类、结构相似性预测和蛋白质配体结合亲和力预测。此外，作者还表明，使用该算法预训练的微调网络在许多任务中取得了新的最优结果。

May, 2022

几何结构预训练下的蛋白表征学习

本文提出了利用 3D 蛋白结构进行预训练的蛋白质表示方法，并通过多视图对比学习和自我预测任务，实现了对蛋白质的编码。实验结果表明，该方法不仅可以比现有的基于序列的方法更有效地预测蛋白质的功能和褶叠分类，而且使用的预训练数据更少。

Mar, 2022

蛋白质表征学习的聚类

蛋白质表示学习是一个具有挑战性的任务，旨在从其氨基酸序列中捕获蛋白质的结构和功能。本文提出了一种神经聚类框架，通过考虑蛋白质的一级和三级结构信息来自动发现蛋白质的关键部分，在四个蛋白质相关任务上取得了最先进的表现。

Mar, 2024

蛋白质结构感知的自监督学习

我们提出了一种新颖的结构感知的蛋白自监督学习方法，利用图神经网络模型预训练，从残基距离和二面角的角度考虑自监督学习任务，借鉴预训练蛋白语言模型的序列信息结合专门设计的 GNN 模型的结构信息进行伪二级优化，实验证明该方法在多个监督型下游任务中的有效性。

Apr, 2022

捕捉蛋白质序列 - 结构 - 功能关系的蛋白质表示学习

蛋白质表示学习旨在从蛋白质数据库中提取知识，以应用于各种蛋白质相关的下游任务，我们引入了新颖的不对称多模态掩码自编码器（AMMA），利用统一多模态编码器将蛋白质序列、结构和功能三种关键形态集成为统一的表示空间，通过不对称解码器确保序列潜在特征反映结构和功能信息，实验表明 AMMA 在学习展现良好间模态关系的蛋白质表示方面具有极高的效果，进而使其在各种蛋白质相关的下游任务中发挥作用。

Apr, 2024

蛋白质表示学习中的序列信息嵌入：是否总能获得更好的性能？

本研究提出了 ProtLOCA 方法，它是一种基于氨基酸结构表示的局部几何对齐方法，通过在蛋白质对全局结构匹配任务中的有效性测试、CATH 标签的独立测试数据集上的性能优于现有序列和结构表示学习方法，快速而准确地匹配结构一致的蛋白质域，还在局部结构配对任务中首次提供了突显不同整体结构但具有相同功能的蛋白质间共同局部结构的有效解决方案，为使用深度学习方法分析蛋白质结构以推断功能提供了新的可能性。

Jun, 2024

预训练语言模型用于蛋白序列表示学习的重编程

本文提出了一种通过 Representation Learning via Dictionary Learning（R2DL）框架，在少于一定训练样本的情况下对蛋白质序列进行嵌入，可以更好地进行蛋白质属性预测，并且可以比基于预先训练和标准监督方法的基线提高 $10^5$ 倍以上。

Jan, 2023

蛋白结构建模与设计中的深度学习

该综述总结了近年来将深度学习技术应用于蛋白质结构建模及设计问题的最新进展，讨论了已经出现和需解决的挑战，针对该领域提出了许多有益的见解。

Jul, 2020

蛋白质多尺度表征学习

本文提出了一种多尺度图构建方法 ——HoloProt，可以连接蛋白表面、结构和序列，并在不同任务上进行了测试，包括配基结合亲和力回归和蛋白质功能预测分类。该模型具有良好的稳定性和可靠性，并且在减少参数数量的情况下可以获得与现有模型相当的性能。

Apr, 2022

蛋白质三维图形结构学习用于稳健基于结构的蛋白质性质预测

通过研究，我们发现当利用 AI 工具（如 AlphaFold2）预测的蛋白质结构时，现有的方法在预测准确性上存在明显的下降，我们将该现象归因于结构表示学习的结构嵌入偏差。为了解决这个问题，我们提出了一种蛋白质结构嵌入对齐优化框架（SAO），并确定了一个稳健蛋白质性质预测的蛋白质三维图结构学习问题（PGSL-RP3），通过大量实验证明了我们的框架在改进预测结构和实验结构的性质预测方面既适用于各种模型，又有效果。

Oct, 2023