基于稀疏自编码器的可扩展可靠电路识别在语言模型中的应用
稀疏自编码器通过重构来自稀疏瓶颈层的激活,提供了一种从语言模型中提取可解释特征的有前途的无监督方法。我们提出使用 k - 稀疏自编码器来直接控制稀疏性,简化调整并改进重构 - 稀疏性的界限,并引入一些评估特征质量的新度量标准,这些度量标准在自编码器的规模大小上通常会有所改善。
Jun, 2024
稀疏自编码器被应用于解释训练好的 Transformer 模型的内部激活值,发现它们能够找到一种稀疏而可解释的分解表示,从而帮助研究人员更详细地解释模型行为,并深化对电路语义的理解。
Jun, 2024
通过使用转码器,我们成功地将 MLP 子层训练为具有更宽、稀疏激活的 MLP 层,并在稀疏性、忠实度和人类可解释性方面至少与稀疏自编码器 (SAEs) 持平,进而通过 MLP 子层进行基于权重的电路分析,最终成功地解析出 GPT2-small 中的大于电路,并发现转码器在将包含 MLP 的模型计算分解为可解释电路方面具有良好效果。
Jun, 2024
我们引入了一种发现和应用稀疏特征电路的方法,这些电路是人可解释特征的因果相关子网络,用于解释语言模型的行为。与以前的工作中的电路相反,稀疏特征电路基于细粒度单元,可以提供对预期之外的机制的详细理解,并且在下游任务中非常有用。我们介绍了 SHIFT,通过消除人类判断为任务无关的特征,改善了分类器的泛化能力。最后,我们展示了一个完全无监督和可扩展的可解释性流程,用于自动发现模型行为中的成千上万的稀疏特征电路。
Mar, 2024
采用稀疏自编码器(SAEs)和跳跃 SAEs 为基础,引入电路发现流程,使用 Hierarchical Attribution 方法对于 GPT2-Small 模型分析了三种电路类型(括号电路、归纳电路和间接对象识别电路),揭示了现有发现之下的新发现。
May, 2024
我们提出了一个评估特征字典的框架来解决解释性中地实际问题缺乏基本事实的问题,并应用该框架到间接对象识别任务中使用 GPT-2 Small,发现虽然稀疏自编码器可以捕捉到可解释的特征,但是它们对于控制模型的成功程度不如受监督的特征,并观察到在自编码器训练中存在的两个定性现象:特征遮挡和特征过度拆分。希望我们的框架能对稀疏字典学习方法的客观评估提供有用的步骤。
May, 2024
本文旨在通过强制使用自动编码器并引入改进的语义哈希技术,从序列模型中提取更好的表示,以提高其在语言建模和机器翻译等任务中的表现,并展示了该技术在生成多元化翻译方面的应用。
Jan, 2018