Jan, 2023
Tracr: 可解释性实验室中的编译变压器
Tracr: Compiled Transformers as a Laboratory for Interpretability
David Lindner, János Kramár, Matthew Rahtz, Thomas McGrath, Vladimir Mikulik
TL;DR在解释性研究中,我们提出使用手动构建的 transformer 模型作为可解释性测试平台,通过 Tracr 将人类可读的程序翻译为 transformer 模型的权重,从而得到实现包括计算令牌频率,排序,Dyck-n 括号验证等程序的多个 ground truth transformers。