通过门控稀疏自编码器改进字典学习

Apr, 2024

通过门控稀疏自编码器改进字典学习

Improving Dictionary Learning with Gated Sparse Autoencoders

Senthooran Rajamanoharan, Arthur Conmy, Lewis Smith, Tom Lieberum, Vikrant Varma...

TL;DR通过引入 Gated Sparse Autoencoder，文章解决了稀疏自编码器中的估计偏差问题，实现了对语言模型激活的解释性特征的无监督发现。

Abstract

Recent work has found that sparse autoencoders (SAEs) are an effective technique for unsupervised discovery of interpretable features in language models' (LMs) activations, by finding sparse, linear reconstructio

sparse autoencoders interpretable features gated sparse autoencoder lms activations shrinkage

发现论文，激发创造

使用稀疏自编码器解释注意力层输出

稀疏自编码器被应用于解释训练好的 Transformer 模型的内部激活值，发现它们能够找到一种稀疏而可解释的分解表示，从而帮助研究人员更详细地解释模型行为，并深化对电路语义的理解。

Jun, 2024

通过端到端稀疏字典学习识别功能重要特征

通过端到端稀疏字典学习方法，我们能够训练稀疏自编码器 (SAEs)，从而确保学习到的特征对网络功能起到重要作用，实现了更好的网络性能解释、特征数量的减少以及样本中同时活动的特征数量的减少。

May, 2024

自编码器的结构化

本文提出了一种称为 Structuring AutoEncoders 的神经网络，其可以使用弱监督形成结构化的低维空间，从而更有效地表示并分类数据。在基准图像数据集 MNIST、Fashion-MNIST、DeepFashion2 以及 3D 人体形状数据集上进行的实验表明，结构潜空间可以为进一步的分类任务和分类数据的有效选择的操作提供更高效的表征。

Aug, 2019

稀疏自编码器的扩展和评估

稀疏自编码器通过重构来自稀疏瓶颈层的激活，提供了一种从语言模型中提取可解释特征的有前途的无监督方法。我们提出使用 k - 稀疏自编码器来直接控制稀疏性，简化调整并改进重构 - 稀疏性的界限，并引入一些评估特征质量的新度量标准，这些度量标准在自编码器的规模大小上通常会有所改善。

Jun, 2024

朝着基于原则的稀疏自编码器的解释性和控制性评估

我们提出了一个评估特征字典的框架来解决解释性中地实际问题缺乏基本事实的问题，并应用该框架到间接对象识别任务中使用 GPT-2 Small，发现虽然稀疏自编码器可以捕捉到可解释的特征，但是它们对于控制模型的成功程度不如受监督的特征，并观察到在自编码器训练中存在的两个定性现象：特征遮挡和特征过度拆分。希望我们的框架能对稀疏字典学习方法的客观评估提供有用的步骤。

May, 2024

稀疏自编码器发现语言模型中的高度可解释特征

使用稀疏自编码器识别语言模型内部的方向，以消除超级位置现象，并达到模型的透明度和可操控性。

Sep, 2023

InceptionV1 早期视觉中缺失的曲线检测器：应用稀疏自编码器

应用稀疏自编码器 (SAEs) 于卷积神经网络的早期视觉层，发现 SAEs 可以揭示从单个神经元中难以察觉的新的可解释特征，包括填补之前空白的额外曲线检测器，并将一些多义性神经元分解为更具单一语义的组成要素，这些发现表明 SAEs 是理解 InceptionV1 及卷积神经网络的有价值工具。

Jun, 2024

对比稀疏自编码器解释国际象棋智能体的规划

基于对对局轨迹的对比稀疏自编码器（CSAE）提取和解释对国际象棋代理计划有意义的概念，通过定性分析 CSAE 特性并提出自动特性分类法，进一步利用合理性检查评估算法的质量。

Jun, 2024

k - 稀疏自编码器

本研究旨在探讨通过鼓励稀疏性来学习表示的有效性，提出了一种名为 k-sparse 自编码器的方法，该方法取得了比其他方法更好的 MNIST 和 NORB 分类结果。

Dec, 2013

V1 的稀疏几何自编码器模型

该论文提出了一种基于自编码器的结构稀疏方法，可以更好地匹配灵长类数据，使用加权 L1 约束的自编码器目标函数保留了稀疏编码框架的核心思想。

Feb, 2023