Jan, 2023

Tracr: 可解释性实验室中的编译变压器

TL;DR在解释性研究中,我们提出使用手动构建的 transformer 模型作为可解释性测试平台,通过 Tracr 将人类可读的程序翻译为 transformer 模型的权重,从而得到实现包括计算令牌频率,排序,Dyck-n 括号验证等程序的多个 ground truth transformers。