Dec, 2023

MMDesign:多模态迁移学习用于生成蛋白质设计

TL;DRMMDesign 是一个结合了先前结构模块和语境模块的预训练模型的新型蛋白质设计范式,利用自编码器(AE)语言模型将蛋白质序列的先验语义知识纳入其中,并引入了一种跨层跨模态对齐算法来确保结构模块学习到长期时间信息并保持结构和语境模态的一致性,在仅使用小规模 CATH 数据集进行训练的实验结果表明,我们的 MMDesign 框架在各种公共测试集上始终优于其他基线方法,并提出了系统性定量分析技术来评估生成的蛋白质序列和数据分布的生物可能性,以展示其可解释性并揭示蛋白质设计的规律。