Jul, 2023

Transformer 屏蔽微调的梯度稀疏化

TL;DR我们提出了 GradDrop 和其变体,一类梯度稀疏化方法,通过在反向传播过程中掩盖梯度作为梯度噪声来规范预训练语言模型,从而提高整体微调性能。在多语种 XGLUE 基准测试中的广泛实验表明,GradDrop 在中间预训练中使用额外翻译数据的方法上具有竞争力,并且优于标准的微调和渐进解冻方法。后续分析显示了 GradDrop 在未经训练的语言上如何提高性能,如资源匮乏的语言。