Jun, 2024

使用稀疏自编码器解释注意力层输出

TL;DR稀疏自编码器被应用于解释训练好的 Transformer 模型的内部激活值,发现它们能够找到一种稀疏而可解释的分解表示,从而帮助研究人员更详细地解释模型行为,并深化对电路语义的理解。