May, 2024

并非所有语言模型特征都是线性的

TL;DR语言模型利用线性表示假说来执行计算,但我们研究表明某些语言模型的表示可能是固有的多维的。我们开发了一种基于不可约多维特征的严格定义,用于确定这些特征是否能够分解为独立或非共现的低维特征。通过使用稀疏自动编码器自动发现 GPT-2 和 Mistral 7B 中的多维特征,这些自动发现的特征包括具有显著可解释性的例子,例如表示星期和月份的圆形特征。我们确定了使用这些确切圆形特征来解决涉及星期和月份的模块算术计算问题的任务。最后,通过对 Mistral 7B 和 Llama 3 8B 进行干预实验,我们提供了这些圆形特征在这些任务中确实是计算的基本单元的证据,并通过分解这些任务的隐藏状态为可解释的组件,找到了更多的圆形表示。