EMNLPMay, 2022

离群维度扰乱变压器的原因是频率驱动

TL;DR通过相关研究表明,Transformer-based 语言模型对剪枝通常非常强壮,但存在异常现象:仅禁用 BERT-base 的 110M 个参数中的 48 个,MNLI 的性能就下降了近 30%。该现象被认为与嵌入空间的几何形状有关,并且为减少未来模型中的异性提供了线索。