activation patching | BriefGPT

关键词activation patching

搜索结果 - 5

如何使用和解读激活修补
激活修补是一种流行的机械解释技术，但在应用和解释结果方面存在许多细微之处。我们根据使用这种技术的经验提供了建议和最佳实践的摘要，包括不同的激活修补应用方式的概述及结果解释的讨论。我们着重介绍激活修补实验对电路的提供的证据以及度量选择及相关陷
PDF2 months ago
AtP*：一种将 LLM 行为局部化到组件的高效可伸缩方法
Activation Patching 是一种直接计算行为因果归因于模型组件的方法，但全面应用需要成本与模型组件数量线性增加，对于 SoTA 大型语言模型来说成本过高。我们调查了 Attribution Patching（AtP），这是一种
PDF4 months ago
寻找的子空间是否是这个？子空间激活修补的可解释性幻觉
机械性可解释性旨在通过特定的可解释特征来理解模型行为，最近的研究探讨了亚空间干预作为同时操纵模型行为和将特征归因于给定亚空间的方式。然而，我们证明了这两个目标是不同的，可能会导致一种虚假的解释感觉。即使亚空间干预使模型的输出表现得好像特征的
PDF7 months ago
归因修补优于自动电路发现
通过应用基于归因修补的简单方法来剔除神经网络中最不重要的边缘，我们的研究比现有方法在电路恢复方面具有更高的 AUC。
PDF9 months ago
语言模型激活修复的最佳实践：度量与方法
我们系统地研究了激活补丁技术的方法学细节，包括评估指标和数据污染方法，并发现这些超参数的变化可能导致差异化的解释结果。根据经验观察，我们提出了为什么应该优先选择某些指标或方法的概念性论证，并最终对激活补丁技术提供了最佳实践建议。
PDF9 months ago