Nov, 2023

使用电路探针揭示变形金刚中的因果变量

TL;DR神经网络模型在各种复杂任务上取得了高性能,但它们所实现的算法往往难以解释。我们提出了一种新的分析技术 —— 电路探测,通过自动发现计算假定的中间变量的低层电路,实现了对模型参数级别的有针对性的切割,从而开展因果分析。我们对简单算术任务上的模型应用了这种方法,证明了它在(1)解密模型所学习的算法,(2)揭示模型内部结构以及(3)追踪电路在训练过程中的发展方面的有效性。我们将电路探测与其他方法在这三个实验中进行比较,发现它在效果上与现有的分析方法相当甚至更加有效。最后,我们在一个真实的应用案例中演示了电路探测的应用,发现了在 GPT2-Small 和 Medium 模型中负责主谓一致和反身指代的电路。