朝着基于原则的稀疏自编码器的解释性和控制性评估

May, 2024

朝着基于原则的稀疏自编码器的解释性和控制性评估

Towards Principled Evaluations of Sparse Autoencoders for Interpretability and Control

Aleksandar Makelov, George Lange, Neel Nanda

TL;DR我们提出了一个评估特征字典的框架来解决解释性中地实际问题缺乏基本事实的问题，并应用该框架到间接对象识别任务中使用 GPT-2 Small，发现虽然稀疏自编码器可以捕捉到可解释的特征，但是它们对于控制模型的成功程度不如受监督的特征，并观察到在自编码器训练中存在的两个定性现象：特征遮挡和特征过度拆分。希望我们的框架能对稀疏字典学习方法的客观评估提供有用的步骤。

Abstract

Disentangling model activations into meaningful features is a central problem in interpretability. However, the lack of ground-truth for these features in realistic scenarios makes the validation of recent approaches, such as sparse dictionary learning, elusive. To overcome this, we pr

model activations sparse dictionary learning supervised feature dictionaries indirect object identification task sparse autoencoders

发现论文，激发创造

通过门控稀疏自编码器改进字典学习

通过引入 Gated Sparse Autoencoder，文章解决了稀疏自编码器中的估计偏差问题，实现了对语言模型激活的解释性特征的无监督发现。

Apr, 2024

使用稀疏自编码器解释注意力层输出

稀疏自编码器被应用于解释训练好的 Transformer 模型的内部激活值，发现它们能够找到一种稀疏而可解释的分解表示，从而帮助研究人员更详细地解释模型行为，并深化对电路语义的理解。

Jun, 2024

通过端到端稀疏字典学习识别功能重要特征

通过端到端稀疏字典学习方法，我们能够训练稀疏自编码器 (SAEs)，从而确保学习到的特征对网络功能起到重要作用，实现了更好的网络性能解释、特征数量的减少以及样本中同时活动的特征数量的减少。

May, 2024

稀疏自编码器发现语言模型中的高度可解释特征

使用稀疏自编码器识别语言模型内部的方向，以消除超级位置现象，并达到模型的透明度和可操控性。

Sep, 2023

稀疏自编码器的扩展和评估

稀疏自编码器通过重构来自稀疏瓶颈层的激活，提供了一种从语言模型中提取可解释特征的有前途的无监督方法。我们提出使用 k - 稀疏自编码器来直接控制稀疏性，简化调整并改进重构 - 稀疏性的界限，并引入一些评估特征质量的新度量标准，这些度量标准在自编码器的规模大小上通常会有所改善。

Jun, 2024

基于稀疏自编码器的可扩展可靠电路识别在语言模型中的应用

介绍了一种使用离散稀疏自编码器在大型语言模型中发现可解释电路的高效且健壮的方法，通过训练稀疏自编码器，我们能够从仅有的正例中直接识别与电路相关的注意力头，实现了较高的准确率和召回率，同时降低运行时间。

May, 2024

对比稀疏自编码器解释国际象棋智能体的规划

基于对对局轨迹的对比稀疏自编码器（CSAE）提取和解释对国际象棋代理计划有意义的概念，通过定性分析 CSAE 特性并提出自动特性分类法，进一步利用合理性检查评估算法的质量。

Jun, 2024

InceptionV1 早期视觉中缺失的曲线检测器：应用稀疏自编码器

应用稀疏自编码器 (SAEs) 于卷积神经网络的早期视觉层，发现 SAEs 可以揭示从单个神经元中难以察觉的新的可解释特征，包括填补之前空白的额外曲线检测器，并将一些多义性神经元分解为更具单一语义的组成要素，这些发现表明 SAEs 是理解 InceptionV1 及卷积神经网络的有价值工具。

Jun, 2024

学习和评估稀疏可解释的句子嵌入

本文通过引入稀疏表示的思想将 word embeddings 应用到 sentence embeddings 中，基于主题连贯性方法引入了一种新的、定量的自动化评估指标，并在电影对话数据集和 MS COCO 数据集的场景描述上观察到了 interpretability 的提高。

Sep, 2018

自编码器的结构化

本文提出了一种称为 Structuring AutoEncoders 的神经网络，其可以使用弱监督形成结构化的低维空间，从而更有效地表示并分类数据。在基准图像数据集 MNIST、Fashion-MNIST、DeepFashion2 以及 3D 人体形状数据集上进行的实验表明，结构潜空间可以为进一步的分类任务和分类数据的有效选择的操作提供更高效的表征。

Aug, 2019