Jun, 2022

Transformer中的信号传播:理论视角和秩崩溃的作用

TL;DR探究在Transformer的自我注意层中可能发生的排名坍塌现象及其影响,发现其会导致查询和键的梯度消失,导致训练受阻,但可以通过适当的深度相关的残差分支缩放来预防,而特定的架构超参数会导致查询和值的梯度的不均衡,这解释了为什么在Transformers的优化中广泛使用自适应方法。