Jul, 2023

电路分析可解释性是否具有可扩展性?来自琪尼兔的多项选择能力的证据

TL;DR电路分析是理解语言模型内部机制的一种有潜力的技术,通过在 70B Chinchilla 模型中进行案例研究,我们发现现有的逻辑归因、注意力模式可视化和激活修补技术在 Chinchilla 上具有可扩展性,并能够识别和分类一小组输出节点(注意力头和 MLPs)。在研究多项选择题回答过程中,我们进一步研究了 “正确字母” 注意力头的类别,旨在理解其特征的语义,但结果参差不齐。