May, 2024

探索语言模型参数的激活模式

TL;DR基于梯度的度量方法探索了大型语言模型内部的参数激活程度,发现参数在浅层被密集激活,而在深层被稀疏激活;当输入跨越不同领域时,浅层参数的激活行为更相似;在深层,参数的激活分布与实际数据相关性呈正相关;进一步验证了这些发现,并期望能在实际应用中产生更多启发。