EMNLPNov, 2022

在预训练的基于 Transformer 的语言模型中寻找技能神经元

TL;DR本论文研究了预训练 Transformer 中某些神经元的激活与特定任务的关联性,发现这些神经元被称为技能神经元,并证实它们对于任务的处理至关重要且具有任务特异性,可通过适当的微调或冻结车舱重用提取得到。此外,还探索了技能神经元的应用,包括网络修剪和构建更好的可转移性指标,这对于加速 Transformer 的发展和进一步研究也有很大推动作用。