ACLApr, 2024

基于解码器的预训练语言模型的多语言能力:发现和控制语言特定神经元

TL;DR当前基于解码器的预训练语言模型(PLMs)成功展示了多语言能力,但这些模型如何处理多语言仍不清楚。我们分析了多语言解码器 PLMs 的神经元级内部行为,特别是考察解码器 - 仅多语言 PLMs 内部是否存在 “独特地只为每种语言” 激活的神经元。我们分析了六种语言:英语、德语、法语、西班牙语、中文和日语,并显示每种语言的语言特定神经元是唯一的,在不同语言之间存在轻微的重叠(<5%)。这些神经元主要分布在模型的前几层和最后几层。此趋势在所有语言和模型中始终一致。此外,在推断过程中,我们对每个模型中少于 1% 的神经元进行干扰,并展示了对少数语言特定神经元的干扰会大幅改变生成文本中目标语言发生的概率。