BriefGPT.xyz
Ask
alpha
关键词
edge attribution patching
搜索结果 - 1
以信为本:在寻找模型机制时超越电路重叠
通过引入 EAP-IG 方法,本文旨在更好地保持电路的核心属性:忠诚度。我们的实验证明,使用 EAP 找到的电路比使用 EAP-IG 找到的电路更不忠诚,尽管两者在与之前使用因果干预发现的电路的节点重叠方面都很高。总之,在使用电路来比较模型
→
PDF
3 months ago
Prev
Next