Oct, 2022

Shapley Head Pruning: 多语言变换器中干扰的识别与消除

TL;DR通过识别和裁剪语言特定的参数,可以减少干扰,从而提高多语言变压器模型的性能,使用 Shapley Values 等指标来指导删除头注意力。