proteins are fundamental biological entities that play a key role in life
activities. The amino acid sequences of proteins can be folded into stable 3D
structures in the real physicochemical world, forming a spec
蛋白质表示学习旨在从蛋白质数据库中提取知识,以应用于各种蛋白质相关的下游任务,我们引入了新颖的不对称多模态掩码自编码器(AMMA),利用统一多模态编码器将蛋白质序列、结构和功能三种关键形态集成为统一的表示空间,通过不对称解码器确保序列潜在特征反映结构和功能信息,实验表明 AMMA 在学习展现良好间模态关系的蛋白质表示方面具有极高的效果,进而使其在各种蛋白质相关的下游任务中发挥作用。
通过研究,我们发现当利用 AI 工具(如 AlphaFold2)预测的蛋白质结构时,现有的方法在预测准确性上存在明显的下降,我们将该现象归因于结构表示学习的结构嵌入偏差。为了解决这个问题,我们提出了一种蛋白质结构嵌入对齐优化框架(SAO),并确定了一个稳健蛋白质性质预测的蛋白质三维图结构学习问题(PGSL-RP3),通过大量实验证明了我们的框架在改进预测结构和实验结构的性质预测方面既适用于各种模型,又有效果。