Apr, 2024
通过门控稀疏自编码器改进字典学习
Improving Dictionary Learning with Gated Sparse Autoencoders
Senthooran Rajamanoharan, Arthur Conmy, Lewis Smith, Tom Lieberum, Vikrant Varma...
TL;DR通过引入 Gated Sparse Autoencoder,文章解决了稀疏自编码器中的估计偏差问题,实现了对语言模型激活的解释性特征的无监督发现。