代码库特征：神经网络的稀疏和离散可解释性

Oct, 2023

代码库特征：神经网络的稀疏和离散可解释性

Codebook Features: Sparse and Discrete Interpretability for Neural Networks

Alex Tamkin, Mohammad Taufeeque, Noah D. Goodman

TL;DR神经网络的密集持续隐藏状态的挑战在于其理解，我们通过将连续特征量化为所谓的代码书特征来探索是否能训练神经网络具有稀疏、离散和更可解释的隐藏状态。我们的方法在大多数情况下仍可保持较高性能，并且提供了一种直观的方法来控制神经网络行为，即通过激活特定代码来引发期望的行为。代码书特征似乎对于神经网络的分析和控制以及可解释性非常有前景。

Abstract

Understanding neural networks is challenging in part because of the dense, continuous nature of their hidden states. We explore whether we can train →

neural networks hidden states codebook features vector quantization bottlenecks interpretability

发现论文，激发创造

通过可共同学习的码书和映射压缩网络的内存占用

通过量化、码书和联合可学习码书等方法，本文提出了一种有效的深度神经网络近似方法，使得 Llama 7B 网络可以在 5 年前的智能手机上以 2GB 的内存占用进行加载。

Sep, 2023

稀疏自编码器发现语言模型中的高度可解释特征

使用稀疏自编码器识别语言模型内部的方向，以消除超级位置现象，并达到模型的透明度和可操控性。

Sep, 2023

在线聚类码本

参考文献通过在线聚类学习方法 Clustering VQ-VAE（CVQ-VAE）解决了向量量化（VQ）中的代码书坍塌问题，提高了在复杂的计算机视觉任务中学习更大的代码书的效果。

Jul, 2023

深度组合编码学习压缩词向量

该论文提出了一种使用少量基向量构建嵌入式编码、使用 Gumbel-softmax 技巧直接学习离散码表的自然语言处理模型压缩方法，并在情感分析和机器翻译任务中实现了 98% 的压缩率，从而达到在不影响性能的前提下减少内存占用的目的，该方法不需要改变网络结构且具有语言无关性。

Nov, 2017

模型压缩作为约束优化的一种形式，以神经网络为例。第二部分：量化

通过使用带有 K 个条目的码簿进行实值权重的量化，我们提出了一种新方法，该方法基于模型压缩作为约束优化框架，交替进行连续权重的网络学习和权重量化（或二值化 / 三值化）的步骤，以便在量化网络的损失上收敛到局部最优解。

Jul, 2017

跨码器寻找可解释的 LLM 特征电路

通过使用转码器，我们成功地将 MLP 子层训练为具有更宽、稀疏激活的 MLP 层，并在稀疏性、忠实度和人类可解释性方面至少与稀疏自编码器 (SAEs) 持平，进而通过 MLP 子层进行基于权重的电路分析，最终成功地解析出 GPT2-small 中的大于电路，并发现转码器在将包含 MLP 的模型计算分解为可解释电路方面具有良好效果。

Jun, 2024

利用词性的码书迁移在矢量量化图像建模中的应用

通过预训练语言模型中的先前训练的编码簿以及词性知识作为先验，构建一个视觉相关的编码簿，通过新的编码簿传递网络来实现鲁棒的 VQIM 编码簿学习，实验证明我们的 VQCT 方法在四个数据集上取得了优于现有最先进方法的性能。

Mar, 2024

SYQ: 学习对称量化以实现高效的深度神经网络

本文介绍了一种量化方法 —— 通过学习特定权重子组的对称码本，来减少权重亚群在前向传播和反向传播中的梯度误差，从而提高超低精度权重和激活的网络的准确性，并证明此表示对更粗粒度的方法没有或仅有最小的硬件影响。该方法可用于神经网络量化。

Jul, 2018

基于掩码稀疏视觉表示的神经图像压缩

研究了基于稀疏视觉表示 (SVR) 的神经图像压缩，提出了一种 Masked Adaptive Codebook learning (M-AdaCode) 方法，通过对潜在特征子空间进行掩蔽以平衡比特率和重建质量，在标准 JPEG-AI 数据集上的实验证明了该方法的有效性。

Sep, 2023

HybridFlow：融合连续性于掩码码本的极低比特率图像压缩

本文研究了极低比特率下的学习图像压缩（LIC）问题，提出了一种新颖的双流框架 HyrbidFlow，结合了基于连续特征和基于码书的流，以在极低比特率下实现高感知质量和高保真性的图像重建。实验结果表明，与现有的单流基于码书或基于连续特征的 LIC 方法相比，在极低比特率下具有优异的性能。

Apr, 2024