Jan, 2021
先对齐,再预测:理解多语言BERT的跨语言能力
First Align, then Predict: Understanding the Cross-Lingual Ability of
Multilingual BERT
TL;DR使用一种新的层摘除技术和模型内部表示的分析方法,我们发现多语言 BERT 可看作两个子网络的堆叠:一个多语言编码器和一个任务特定的语言无关的预测器。编码器对于跨语言传递非常关键,在微调过程中大部分不变,而任务预测对传递影响很小,可以在微调期间重新初始化。