Mar, 2024

以信为本:在寻找模型机制时超越电路重叠

TL;DR通过引入 EAP-IG 方法,本文旨在更好地保持电路的核心属性:忠诚度。我们的实验证明,使用 EAP 找到的电路比使用 EAP-IG 找到的电路更不忠诚,尽管两者在与之前使用因果干预发现的电路的节点重叠方面都很高。总之,在使用电路来比较模型解决任务的机制时,应该衡量忠诚度而不是重叠程度。