稀疏自编码器发现语言模型中的高度可解释特征

Sep, 2023

稀疏自编码器发现语言模型中的高度可解释特征

Sparse Autoencoders Find Highly Interpretable Features in Language Models

Hoagy Cunningham, Aidan Ewart, Logan Riggs, Robert Huben, Lee Sharkey

TL;DR使用稀疏自编码器识别语言模型内部的方向，以消除超级位置现象，并达到模型的透明度和可操控性。

Abstract

One of the roadblocks to a better understanding of neural networks' internals is \textit{polysemanticity}, where neurons appear to activate in multiple, semantically distinct contexts. →

neural networks polysemanticity superposition sparse autoencoders model transparency

发现论文，激发创造

稀疏自编码器的扩展和评估

稀疏自编码器通过重构来自稀疏瓶颈层的激活，提供了一种从语言模型中提取可解释特征的有前途的无监督方法。我们提出使用 k - 稀疏自编码器来直接控制稀疏性，简化调整并改进重构 - 稀疏性的界限，并引入一些评估特征质量的新度量标准，这些度量标准在自编码器的规模大小上通常会有所改善。

Jun, 2024

基于稀疏自编码器的可扩展可靠电路识别在语言模型中的应用

介绍了一种使用离散稀疏自编码器在大型语言模型中发现可解释电路的高效且健壮的方法，通过训练稀疏自编码器，我们能够从仅有的正例中直接识别与电路相关的注意力头，实现了较高的准确率和召回率，同时降低运行时间。

May, 2024

使用稀疏自编码器解释注意力层输出

稀疏自编码器被应用于解释训练好的 Transformer 模型的内部激活值，发现它们能够找到一种稀疏而可解释的分解表示，从而帮助研究人员更详细地解释模型行为，并深化对电路语义的理解。

Jun, 2024

通过门控稀疏自编码器改进字典学习

通过引入 Gated Sparse Autoencoder，文章解决了稀疏自编码器中的估计偏差问题，实现了对语言模型激活的解释性特征的无监督发现。

Apr, 2024

跨码器寻找可解释的 LLM 特征电路

通过使用转码器，我们成功地将 MLP 子层训练为具有更宽、稀疏激活的 MLP 层，并在稀疏性、忠实度和人类可解释性方面至少与稀疏自编码器 (SAEs) 持平，进而通过 MLP 子层进行基于权重的电路分析，最终成功地解析出 GPT2-small 中的大于电路，并发现转码器在将包含 MLP 的模型计算分解为可解释电路方面具有良好效果。

Jun, 2024

通过编码理论理解神经网络中的多义性

本文通过应用神经科学和信息论中的工具，提出了一种新的实用方法和理论观点，用于解释神经网络的可解释性和多语义性，研究网络代码的冗余水平，并展示了随机投影如何揭示网络代码的可解释性。同时，文中还解释了多语义神经元对学习性能的优势，并对最近 Elhage 等人的研究结果提出了解释，并推进了神经网络可解释性的探索，为其底层结构提供了洞见，提供了新的电路级可解释性途径。

Jan, 2024

超叠加的玩具模型

本文提供了一个玩具模型，完全理解了多义性的出现，我们通过存储额外的稀疏特征在 “叠加” 的方式下实现了多义性。我们展示了一个相位变化的存在，一个令人惊讶的与均匀多面体几何的联系，以及与对抗性示例的联系的证据。我们还讨论了对机械解释的潜在影响。

Sep, 2022

朝着基于原则的稀疏自编码器的解释性和控制性评估

我们提出了一个评估特征字典的框架来解决解释性中地实际问题缺乏基本事实的问题，并应用该框架到间接对象识别任务中使用 GPT-2 Small，发现虽然稀疏自编码器可以捕捉到可解释的特征，但是它们对于控制模型的成功程度不如受监督的特征，并观察到在自编码器训练中存在的两个定性现象：特征遮挡和特征过度拆分。希望我们的框架能对稀疏字典学习方法的客观评估提供有用的步骤。

May, 2024

稀疏特征电路：在语言模型中发现和编辑可解释性因果图

我们引入了一种发现和应用稀疏特征电路的方法，这些电路是人可解释特征的因果相关子网络，用于解释语言模型的行为。与以前的工作中的电路相反，稀疏特征电路基于细粒度单元，可以提供对预期之外的机制的详细理解，并且在下游任务中非常有用。我们介绍了 SHIFT，通过消除人类判断为任务无关的特征，改善了分类器的泛化能力。最后，我们展示了一个完全无监督和可扩展的可解释性流程，用于自动发现模型行为中的成千上万的稀疏特征电路。

Mar, 2024

对比稀疏自编码器解释国际象棋智能体的规划

基于对对局轨迹的对比稀疏自编码器（CSAE）提取和解释对国际象棋代理计划有意义的概念，通过定性分析 CSAE 特性并提出自动特性分类法，进一步利用合理性检查评估算法的质量。

Jun, 2024