BriefGPT.xyz
Jun, 2024
跨码器寻找可解释的LLM特征电路
Transcoders Find Interpretable LLM Feature Circuits
HTML
PDF
Jacob Dunefsky, Philippe Chlenski, Neel Nanda
TL;DR
通过使用转码器,我们成功地将 MLP 子层训练为具有更宽、稀疏激活的 MLP 层,并在稀疏性、忠实度和人类可解释性方面至少与稀疏自编码器 (SAEs) 持平,进而通过 MLP 子层进行基于权重的电路分析,最终成功地解析出 GPT2-small 中的大于电路,并发现转码器在将包含 MLP 的模型计算分解为可解释电路方面具有良好效果。
Abstract
A key goal in
mechanistic interpretability
is
circuit analysis
: finding sparse subgraphs of models corresponding to specific behaviors or capabilities. However, MLP sublayers make fine-grained
→