Mar, 2024
语言模型中的段落记忆定位
Localizing Paragraph Memorization in Language Models
TL;DR我们研究了语言模型中记忆和背诵整个段落时使用的权重和机制是否可以被定位,我们发现记忆分布在多个层和模型组件中,而记忆段落的渐变具有可辨别的空间模式,较低模型层的渐变比非记忆示例的渐变更大。此外,只需通过微调高渐变权重即可取消对记忆示例的学习。我们定位了一个似乎特别参与段落记忆的低层注意头。该注意头主要关注在语料库级别的单字分布中最不频繁的独特罕见标记。此外,我们通过扰动标记并测量解码中引起的变化来研究记忆化在前缀中的定位。前缀中的几个独特标记往往会破坏整个延续。总体而言,记忆化延续不仅更难取消学习,也更难破坏。