Feb, 2024

Transformer 语言适配器的隐藏空间

TL;DR通过分析变压器语言适配器的操作,我们表明适应某个新的目标语言的预测主要在模型训练时所使用的源语言上进行了演化,而目标语言仅在模型的最后几层中变得明显。此外,适应过程是渐进的,并分布在各个层次上,可以跳过少量适配器而不降低适应性能。最后,我们发现适配器在模型的冻结表示空间上操作,同时在很大程度上保留其结构,而不是在 “独立” 的子空间上操作。我们的研究结果深入了解了语言模型对新语言的适应过程,展示了底层模型所施加的约束,并引入了增强其效率的实际应用意义。