Jun, 2024
使用稀疏自编码器解释注意力层输出
Interpreting Attention Layer Outputs with Sparse Autoencoders
Connor Kissane, Robert Krzyzanowski, Joseph Isaac Bloom, Arthur Conmy, Neel Nanda
TL;DR稀疏自编码器被应用于解释训练好的 Transformer 模型的内部激活值,发现它们能够找到一种稀疏而可解释的分解表示,从而帮助研究人员更详细地解释模型行为,并深化对电路语义的理解。