EMNLPOct, 2020

对预训练语言模型中个体神经元的分析

TL;DR本研究探讨了使用深度 NLP 模型学习的表示来捕捉语言知识。在核心语言学任务上进行了神经元级别的分析,研究了预训练的语言模型中的神经元是否捕捉了语言信息,哪些部分学习了某些语言现象,信息分散或集中在哪里,以及不同架构在学习这些属性方面的差异。本研究发现预测语言任务的神经元是小的子集,与较低级任务(如形态学)相比,预测句法这样的更高级任务的神经元更加分散。同时,本研究还揭示了有趣的跨架构比较,比如我们发现在预测性质方面,XLNet 中的神经元更加局部化和不连通,而 BERT 等则更加分布式和耦合。