EMNLPNov, 2022
在预训练的基于 Transformer 的语言模型中寻找技能神经元
Finding Skill Neurons in Pre-trained Transformer-based Language Models
Xiaozhi Wang, Kaiyue Wen, Zhengyan Zhang, Lei Hou, Zhiyuan Liu...
TL;DR本论文研究了预训练 Transformer 中某些神经元的激活与特定任务的关联性,发现这些神经元被称为技能神经元,并证实它们对于任务的处理至关重要且具有任务特异性,可通过适当的微调或冻结车舱重用提取得到。此外,还探索了技能神经元的应用,包括网络修剪和构建更好的可转移性指标,这对于加速 Transformer 的发展和进一步研究也有很大推动作用。