EMNLPOct, 2020

Transformer 模型的查询键归一化

TL;DR本文提出 QKNorm 方法,对 Transformer 神经网络的 attention 机制进行优化,在不损失表现力情况下,通过可以学习的参数替代平方根作为归一化时分母,减小了 softmax 函数的任意性饱和,实验表明在 5 种语言翻译任务中,较之前最先进的方法,BLEU 平均提高了 0.928 个点