May, 2023

稀疏探测中的神经元查找案例研究

TL;DR本文讨论了如何理解大型语言模型内部神经元激活的高级人类可解释特征表示,并通过 $k$-sparse 线性分类器在内部神经元激活上进行分类训练以预测输入特征的存在性,研究表示的稀疏性随模型规模的变化,发现超定叠加、高级语境特定性和多种类型的规模动态等特性。