ACLMay, 2021

BERT 破坏者:干扰变换器的异常维度

TL;DR本文发现虽然大多数研究查明 Transformer 是极为健壮的(指对剪枝的容忍度很高),但预先训练好的 Transformer 编码器对于在层输出中删除非常少的要素(模型权重的 < 0.0001%)却异常脆弱。本文发现,对于 BERT 和其他一些预先训练的编码器 Transformer,受影响的组件是 LayerNorm 中的缩放因子和偏差(scaling factors and biases),异常值是在预先训练中早期出现的高幅度归一化参数,并在整个模型中保持相同的维度位置。我们表明,禁用这些异常值显著降低了 MLM 损失和下游任务的性能。这种影响观察到 BART、XLNet、ELECTRA 等几个 BERT 类型的模型和其他流行的预先训练的 Transformer 架构中,也在 GPT-2 中展现了类似效应。