ACLAug, 2021

Transformer 注意力头在多语言和跨语言任务中的贡献

TL;DR该论文研究了注意力头在 Transformer 模型中的相对重要性,以帮助其在跨语言和多语言任务中的可解释性。通过大量实验,证明了在多语言 Transformer 模型中修剪注意力头可以在跨语言和多语言任务中提高模型性能,并且可以使用梯度对注意头进行排序和识别。