Oct, 2023

在 Transformer 语言模型中的电路组件重用

TL;DR通过电路分析,揭示了语言模型中行为的机制性可解释性。证明了观察的洞见既适用于特定任务的发现,也适用于一般算法的发现,并通过调整注意头以修复电路来证明了这一过程的相似性。结果表明,大型语言模型的行为可以通过一些可解释的任务通用算法构建模块和计算组件来解释。