Sep, 2021

多语言 BERT 中注意力头的可剪枝性

TL;DR通过对 mBERT 进行修剪,我们 quantifying 它的鲁棒性和逐层理解其重要性,结果表明缩减其注意力容量不会影响其鲁棒性。而在跨语言任务 XNLI 中,修剪会导致准确性下降,这表明跨语言转移的鲁棒性较低。此外,编码器层的重要性受语言族和预训练语料大小的影响。