Jan, 2025

解码大型语言模型中的专业特征神经元及其最终投影层

TL;DR本研究针对大型语言模型(LLMs)缺乏可解释性的问题,提出了一种通过模型的最终投影层直接解码神经元权重的方法。研究发现,这些专业特征神经元在响应特定概念时表现出强烈关联,可以有效地将神经元的激活与输出的令牌概率联系起来,进而提升了模型的可解释性和安全性。