ICLRJun, 2020

关于 BERT 微调的稳定性:误区、解释和强基准线

TL;DR通过分析 BERT、RoBERTa 和 ALBERT 在 GLUE 基准测试集上的表现,本文表明,Fine-tuning 不稳定是由于优化困难导致梯度消失,我们提出了一个简单但强大的基线方法,使 BERT-based 模型的 fine-tuning 显著更稳定。