Mar, 2025

面向可解释的蛋白质结构预测:稀疏自编码器的应用

TL;DR这项研究解决了蛋白质结构预测中序列表示如何影响结构预测的可解释性问题。通过扩展稀疏自编码器(SAEs)至大型蛋白质语言模型ESM2-3B,并采用层次化组织特征的Matryoshka SAEs,我们实现了前所未有的机制可解释性,支持对结构预测的精确调控。研究结果显示,SAEs在生物概念发现和接触图预测上的表现显著优于较小模型训练的SAEs,具有重要的应用潜力。