本文提出了一种名为 Automatic Circuit DisCovery (ACDC) 的算法,用于自动识别网络中的重要单元,通过在神经网络进行数据集、指标和单元的研究,可理解每个神经网络区域的功能及其组成的电路。
Apr, 2023
通过应用基于归因修补的简单方法来剔除神经网络中最不重要的边缘,我们的研究比现有方法在电路恢复方面具有更高的AUC。
Oct, 2023
基于稀疏字典学习和机制解释性,提出了一种电路发现框架,用于从模型激活中提取更多人可理解的特征。该框架能够识别连接大量字典特征的电路,并在渐近复杂度方面具有更高的效率。在合成任务 Othello 的小型 Transformer 中,发现了许多人可理解的细粒度电路。
Feb, 2024
我们引入了一种发现和应用稀疏特征电路的方法,这些电路是人可解释特征的因果相关子网络,用于解释语言模型的行为。与以前的工作中的电路相反,稀疏特征电路基于细粒度单元,可以提供对预期之外的机制的详细理解,并且在下游任务中非常有用。我们介绍了SHIFT,通过消除人类判断为任务无关的特征,改善了分类器的泛化能力。最后,我们展示了一个完全无监督和可扩展的可解释性流程,用于自动发现模型行为中的成千上万的稀疏特征电路。
Mar, 2024
基于视觉概念的神经元激活依赖和功能连接,我们提出了一种新的方法来提取深度视觉模型计算图的子图,从而防御大规模预训练模型的对抗攻击。
Apr, 2024
介绍了一种使用离散稀疏自编码器在大型语言模型中发现可解释电路的高效且健壮的方法,通过训练稀疏自编码器,我们能够从仅有的正例中直接识别与电路相关的注意力头,实现了较高的准确率和召回率,同时降低运行时间。
May, 2024
通过使用转码器,我们成功地将 MLP 子层训练为具有更宽、稀疏激活的 MLP 层,并在稀疏性、忠实度和人类可解释性方面至少与稀疏自编码器 (SAEs) 持平,进而通过 MLP 子层进行基于权重的电路分析,最终成功地解析出 GPT2-small 中的大于电路,并发现转码器在将包含 MLP 的模型计算分解为可解释电路方面具有良好效果。
Jun, 2024
自动电路发现的一种有效且可扩展的解决方案是基于优化问题的边缘修剪,该方法在 GPT-2 模型中找到使用少于一半边缘的电路,并与之前的方法在速度和质量上表现出优势。
本文研究了电路发现在内部可解释性方面的重要性,探讨了现有算法在规模和可信度上的不足。作者通过经典和参数化的计算复杂性理论,建立了一个框架来分析多层感知器的查询复杂性,发现了许多查询是不可解的,同时提出了一些针对这些困难问题的转化方法。本研究为理解可解释性查询的范围和限制提供了新的视角,有助于探索和比较现有及未来架构的资源需求。
Oct, 2024
该研究针对神经网络内部可解释性中的电路发现问题,填补了理论和算法选项之间的空白。作者提出了一个全面的查询框架,并分析了多层感知器中查询的复杂性,揭示了许多查询的不可解性和近似性限制。研究为理解可解释性查询的范围和局限性提供了新视角,进而促进实现更有效的算法选择。