Nov, 2023

寻找的子空间是否是这个?子空间激活修补的可解释性幻觉

TL;DR机械性可解释性旨在通过特定的可解释特征来理解模型行为,最近的研究探讨了亚空间干预作为同时操纵模型行为和将特征归因于给定亚空间的方式。然而,我们证明了这两个目标是不同的,可能会导致一种虚假的解释感觉。即使亚空间干预使模型的输出表现得好像特征的值发生了变化,但这个效果可能是通过激活一个与模型输出因果断开的并行路径来实现的。我们在数学示例、两个真实领域(间接对象识别任务和事实回忆)中展示了这一现象,并呈现了实践中支持该现象普遍存在的证据。然而,这并不意味着亚空间激活干预在可解释性方面本质上不适用。为了将我们的发现置于背景中,我们还展示了在一项任务(间接对象识别)中的成功案例,其中以前的手动电路分析为理解特征的位置提供了信息。我们探讨了需要的额外证据来论证修补的亚空间是否忠实。