May, 2023

规模上的可解释性:在 Alpaca 中识别因果机制

TL;DR本文介绍了基于因果抽象的分布式对齐搜索方法(Distributed Alignment Search,DAS),通过替换搜索过程并训练参数,能够高效地在大型语言模型中搜索可解释的因果结构。在应用 DAS 于 Alpaca 模型时,我们发现它通过实现一个具有两个可解释的布尔变量的因果模型来解决一个简单的数值推理问题,并且神经表示与这些变量的对齐具有鲁棒性。这些发现标志着我们深入了解最大、最广泛使用的语言模型内部运行机制的第一步。