Feb, 2024

语言模型自我修复的探索

TL;DR这篇论文研究对窄分布进行解释性研究,发现了自我修复现象,该现象表明,如果在大型语言模型中去除组件,后续的组件会改变其行为以进行补偿。我们的研究基于过去的文献,证明了当去除全训练分布上的单个注意力头时,自我修复存在于各种模型家族和规模上。我们进一步展示了全训练分布上的自我修复是不完美的,因为头部的原始直接效应没有完全恢复,并且是不稳定的,因为自我修复的程度在不同的提示之间变化显著(有时会超出原始效应的矫正)。我们强调了两种不同的机制对自我修复的贡献,包括最终的 LayerNorm 比例因子的变化(可修复达到 30% 的直接效应)和实施反擦除的稀疏神经元集合。此外,我们还讨论了这些结果对解释性从业者的影响,并在结束时对为什么这些模型中会出现自我修复的谜团进行了更具推测性的讨论,强调了语言模型中迭代推理假设的证据。