EMNLPApr, 2020

理解 Transformer 训练的难点

TL;DR分析了 Transformer 模型训练稳定性问题的核心,提出了一种新的模型初始化方法 Admin,实验证明 Admin 方法可以提高模型的稳定性、加速收敛并且提高准确性。