EMNLPOct, 2020

Transformer 训练中参数范数增长的影响:梯度下降的归纳偏置

TL;DR本篇论文通过研究 transformer 在训练过程中的参数增长情况,证明了网络逐渐逼近于饱和状态的离散网络模型,得出饱和性是梯度下降在自然语言处理中的一个新的归纳偏差并通过自注意力机制分析了 transformer 的不同注意力头的作用。